Puis-je dire quelque chose sur la propension à sur-équiper en (A) contre (B)?
À condition que les deux grilles couvrent une plage suffisante, la finesse de la grille n'a vraiment rien à voir avec un sur-ajustement dans ce problème (bien qu'une grille grossière puisse être insuffisante si elle saute un intervalle rentable). Ce n'est pas comme si tester trop de valeurs changerait d'une manière ou d'une autre ce à quoi ressemble un échantillon. * Dans le cas de ces régressions pénalisées, nous voulons certainement optimiser notre fonction de vraisemblance pénalisée pour les valeurs , et peu importe comment nous testons de nombreuses valeurs de , car les performances hors échantillon pour un ensemble de données fixe et un partitionnement fixe sont entièrement déterministes. Plus précisément, la métrique hors échantillon n'est pas du tout modifiée par le nombre de valeursλλλvous testez. Une grille plus grossière peut signifier que vous sautez le minimum absolu dans votre métrique hors échantillon, mais trouver le minimum absolu n'est probablement pas souhaitable en premier lieu car les hyperparamètres ont tendance à être mal estimés et les propriétés d'échantillon fini signifient que les données les limites seront un bruit source dans cette estimation qui submergera de légers changements dans la distance entre les points de grille adjacents: l'erreur standard de votre estimation aura tendance à submerger les différences de finesse de grille.
Si vous craignez vraiment que la mesure des performances hors échantillon soit trop optimiste, vous pouvez adopter la règle de 1 erreur standard, qui sélectionne le modèle le plus régularisé dans 1 erreur standard du minimum. De cette façon, vous êtes légèrement plus conservateur et choisissez un modèle moins complexe.
Puis-je déterminer la finesse de grille optimale? Comment?
L'algorithme LARS ne définit pas a priori les valeurs de à vérifier; au lieu de cela, est modifié en continu et l'algorithme vérifie les valeurs de pour lesquelles un coefficient passe de 0 à une valeur non nulle. Ces valeurs deλλλλoù un nouveau coefficient est différent de zéro sont conservés, avec l'observation que les chemins des coefficients sont linéaires par morceaux dans le cas du lasso, donc il n'y a pas de perte d'information en stockant simplement les nœuds dans ce cas. Cependant, LARS ne fonctionne que lorsque les chemins des coefficients sont linéaires par morceaux. La pénalité de crête ne réduit jamais un coefficient à zéro précisément, donc tous vos chemins de coefficient sont lisses et toujours non nuls; de même les régressions nettes élastiques (hors cas des régressions nettes élastiques qui sont aussi des régressions au lasso).
Mais la plupart des gens utilisent GLMNET car il est souvent plus rapide. En termes de détermination de la grille de sur laquelle rechercher, je recommande la lecture de l' article GLMNET "Chemins de régularisation pour les modèles linéaires généralisés via la descente de coordonnées" par Jerome Friedman, Trevor Hastie et Rob Tibshirani. Ils y développent un algorithme très efficace pour estimer les régressions de crête, de lasso et de filet élastique. L'algorithme recherche une valeur de pour laquelle est le vecteur zéro, puis identifie une valeur minimale rapport àλλmaxβλminλmax. Enfin, ils génèrent une séquence de valeurs entre les deux uniformément sur l'échelle logarithmique. Cette grille est suffisante dans la plupart des cas, bien qu'elle omet la propriété que vous saurez précisément lorsqu'un coefficient est estimé à une valeur non nulle. Les démarrages à chaud sont utilisés pour fournir des solutions beaucoup plus rapidement et prennent en charge de nombreux GLM courants.
* Vous pourriez penser à cela du point de vue d'un réseau de neurones artificiels, où un arrêt précoce est parfois utilisé pour accomplir la régularisation, mais c'est un problème totalement indépendant (à savoir, que l'algorithme d'optimisation est empêché d'atteindre un optimum, donc le modèle est forcé d'être moins complexe).