Finesse de la grille et sur-ajustement lors du réglage en LASSO, crête, filet élastique

8

Je me demande

  • la finesse optimale de la grille et
  • quelle est la relation entre la finesse de la grille et le sur-ajustement

dans les méthodes de régularisation telles que LASSO, régression de crête ou filet élastique.

Supposons que je veuille adapter un modèle de régression utilisant LASSO à un échantillon de 500 observations (je n'ai pas les données; ce n'est qu'un exemple). Supposons également que j'ai
(A) une grille avec 100 valeurs différentes dans la plage entre et (B) une grille avec 1000 valeurs différentes dans la même plage, où est le paramètre contrôlant le degré de pénalisation.λλminλmax
λ
λ

Des questions:

  1. Puis-je dire quelque chose sur la propension à sur-équiper en (A) contre (B) ?
  2. Puis-je déterminer la finesse de grille optimale? Comment?
Richard Hardy
la source

Réponses:

7

Puis-je dire quelque chose sur la propension à sur-équiper en (A) contre (B)?

À condition que les deux grilles couvrent une plage suffisante, la finesse de la grille n'a vraiment rien à voir avec un sur-ajustement dans ce problème (bien qu'une grille grossière puisse être insuffisante si elle saute un intervalle rentable). Ce n'est pas comme si tester trop de valeurs changerait d'une manière ou d'une autre ce à quoi ressemble un échantillon. * Dans le cas de ces régressions pénalisées, nous voulons certainement optimiser notre fonction de vraisemblance pénalisée pour les valeurs , et peu importe comment nous testons de nombreuses valeurs de , car les performances hors échantillon pour un ensemble de données fixe et un partitionnement fixe sont entièrement déterministes. Plus précisément, la métrique hors échantillon n'est pas du tout modifiée par le nombre de valeursλλλvous testez. Une grille plus grossière peut signifier que vous sautez le minimum absolu dans votre métrique hors échantillon, mais trouver le minimum absolu n'est probablement pas souhaitable en premier lieu car les hyperparamètres ont tendance à être mal estimés et les propriétés d'échantillon fini signifient que les données les limites seront un bruit source dans cette estimation qui submergera de légers changements dans la distance entre les points de grille adjacents: l'erreur standard de votre estimation aura tendance à submerger les différences de finesse de grille.

Si vous craignez vraiment que la mesure des performances hors échantillon soit trop optimiste, vous pouvez adopter la règle de 1 erreur standard, qui sélectionne le modèle le plus régularisé dans 1 erreur standard du minimum. De cette façon, vous êtes légèrement plus conservateur et choisissez un modèle moins complexe.

Puis-je déterminer la finesse de grille optimale? Comment?

L'algorithme LARS ne définit pas a priori les valeurs de à vérifier; au lieu de cela, est modifié en continu et l'algorithme vérifie les valeurs de pour lesquelles un coefficient passe de 0 à une valeur non nulle. Ces valeurs deλλλλoù un nouveau coefficient est différent de zéro sont conservés, avec l'observation que les chemins des coefficients sont linéaires par morceaux dans le cas du lasso, donc il n'y a pas de perte d'information en stockant simplement les nœuds dans ce cas. Cependant, LARS ne fonctionne que lorsque les chemins des coefficients sont linéaires par morceaux. La pénalité de crête ne réduit jamais un coefficient à zéro précisément, donc tous vos chemins de coefficient sont lisses et toujours non nuls; de même les régressions nettes élastiques (hors cas des régressions nettes élastiques qui sont aussi des régressions au lasso).

Mais la plupart des gens utilisent GLMNET car il est souvent plus rapide. En termes de détermination de la grille de sur laquelle rechercher, je recommande la lecture de l' article GLMNET "Chemins de régularisation pour les modèles linéaires généralisés via la descente de coordonnées" par Jerome Friedman, Trevor Hastie et Rob Tibshirani. Ils y développent un algorithme très efficace pour estimer les régressions de crête, de lasso et de filet élastique. L'algorithme recherche une valeur de pour laquelle est le vecteur zéro, puis identifie une valeur minimale rapport àλλmaxβλminλmax. Enfin, ils génèrent une séquence de valeurs entre les deux uniformément sur l'échelle logarithmique. Cette grille est suffisante dans la plupart des cas, bien qu'elle omet la propriété que vous saurez précisément lorsqu'un coefficient est estimé à une valeur non nulle. Les démarrages à chaud sont utilisés pour fournir des solutions beaucoup plus rapidement et prennent en charge de nombreux GLM courants.


* Vous pourriez penser à cela du point de vue d'un réseau de neurones artificiels, où un arrêt précoce est parfois utilisé pour accomplir la régularisation, mais c'est un problème totalement indépendant (à savoir, que l'algorithme d'optimisation est empêché d'atteindre un optimum, donc le modèle est forcé d'être moins complexe).

Sycorax dit de réintégrer Monica
la source
2
Je ne pense pas que vous ayez tout à fait raison dans la description de la façon dont glmnet choisit le lambdas user777. Consultez la section 2.5 du document, où ils discutent du choix du lambda minimum et maximum, et de ceux entre les deux. Vous pensez peut-être au LARS, qui fait en effet ce que vous décrivez, mais je ne pense pas qu'il ait été généralisé pour inclure une pénalité de crête.
Matthew Drury
@MatthewDrury Bah. Tu as raison. Je pensais à LARS.
Sycorax dit Réintégrer Monica le
J'ai lu du matériel connexe et peut-être cet article aussi, mais ce qui suit n'était pas complètement convaincant pour moi: Enfin, ils génèrent une séquence de valeurs entre les deux uniformément sur l'échelle logarithmique. Existe-t-il une justification montrant qu'il s'agit d'un choix optimal? Aussi, comment choisissent-ils la finesse de la grille? Je ne me souviens pas avoir lu une bonne explication.
Richard Hardy
1
J'ai observé dans toutes mes utilisations de glmnet que le changement de probabilité logarithmique entre des points de grille consécutifs est toujours dominé par l'erreur std estimée desdites estimations. La grille standard est donc suffisamment fine pour que toute information obtenue à partir d'une résolution accrue soit dominée par l'incertitude de l'estimation lambda.
Matthew Drury du
1
@amoeba Le cas de la petite taille de l'échantillon serait submergé par la variance des estimations CV: tout à proximité du minimum serait essentiellement le même. C'est pourquoi il n'y a pas de réel avantage à augmenter la finesse du réseau. De plus, les trajectoires sont généralement de belles courbes, donc l'augmentation de la finesse de la grille ne fera que remplir l'espace entre les estiamtes. Dans les exemples que j'ai vus, la courbe de réponse ne oscille pas de haut en bas, surtout pas dans un intervalle fin. λλ
Sycorax dit Réintégrer Monica