Choix de la plage et de la densité de grille pour le paramètre de régularisation dans LASSO

Je suis en train d' étudier LASSO (moins un retrait absolu et opérateur sélection) à l'intervalle. Je vois que la valeur optimale pour le paramètre de régularisation peut être choisie par validation croisée. Je vois aussi dans la régression de crête et de nombreuses méthodes qui appliquent la régularisation, nous pouvons utiliser CV afin de trouver le paramètre de régularisation optimal (en disant pénalité). Maintenant, ma question concerne les valeurs initiales des bornes supérieure et inférieure du paramètre et comment déterminer la longueur de la séquence.

Pour être précis, supposons que nous ayons un problème LASSO et nous voulons trouver la valeur optimale pour la pénalité, . Alors, comment pouvons-nous choisir une limite inférieure et supérieure pour ? et combien de divisions entre ces deux valeurs ?

L o g L i k e l i h o o d = (y - x β)^{'} (y - x β) + λ \sum | β |_{1}

$LogLikelihood = (y-x\beta)'(y-x\beta) + \lambda \sum|\beta|_1$

λ

$\lambda$

λ \in [a = ?, b = ?]

$\lambda \in [a=?,b=?]$

\frac{(b - a)}{k = ?}

$\frac{(b-a)}{k=?}$

lasso regularization shrinkage TPArrow
la source

Question connexe ici .

Richard Hardy

Copie possible de la finesse

Sycorax dit Réinstallez Monica

Cette méthodologie est décrite dans le document de glmnet Regularization Paths for Generalized Linear Models via Coordinate Descent . Bien que la méthodologie utilisée ici concerne le cas général de régularisation et , elle devrait également s'appliquer au LASSO (uniquement ). $L^1$ $L^2$ $L^1$

La solution pour le maximum est donnée dans la section 2.5. $\lambda$

Lorsque , nous voyons à partir de (5) que restera nul si . D'où $\tilde\beta = 0$ $\tilde\beta_j$ $\frac{1}{N} | \langle x_j , y \rangle | < \lambda \alpha$ $N \alpha \lambda_{max} = \max_l | \langle x_l , y \rangle |$

Autrement dit, nous observons que la règle de mise à jour pour la version bêta force toutes les estimations de paramètres à zéro pour comme déterminé ci-dessus. $\lambda > \lambda_{max}$

La détermination de et du nombre de points de grille semble moins fondée sur des principes. Dans glmnet, ils définissent , puis choisissent une grille de points également espacés sur l'échelle logarithmique. $\lambda_{min}$ $\lambda_{min} = 0.001 * \lambda_{max}$ $100$

Cela fonctionne bien dans la pratique, dans mon utilisation extensive de glmnet, je n'ai jamais trouvé cette grille trop grossière.

Dans le LASSO ( ), seuls les cas fonctionnent mieux, car la méthode LARS fournit un calcul précis du moment où les différents prédicteurs entrent dans le modèle. Un vrai LARS ne fait pas de recherche de grille sur , produisant à la place une expression exacte pour les chemins de solution pour les coefficients. Voici un aperçu détaillé du calcul exact des chemins de coefficient dans les deux cas de prédicteur. $L^1$ $\lambda$

Le cas des modèles non linéaires (ie logistique, poisson) est plus difficile. À un niveau élevé, une approximation quadratique de la fonction de perte est d'abord obtenue aux paramètres initiaux , puis le calcul ci-dessus est utilisé pour déterminer . Un calcul précis des chemins des paramètres n'est pas possible dans ces cas, même lorsque seule la régularisation est fournie, donc une recherche dans la grille est la seule option. $\beta = 0$ $\lambda_{max}$ $L^1$

Les poids d'échantillon compliquent également la situation, les produits intérieurs doivent être remplacés aux endroits appropriés par des produits intérieurs pondérés.

Matthew Drury
la source

Choix de la plage et de la densité de grille pour le paramètre de régularisation dans LASSO

Réponses: