J'essaie de comprendre comment l'algorithme Lars peut être modifié pour générer Lasso. Bien que je comprenne le LARS, je ne suis pas en mesure de voir la modification au Lasso de l'article de Tibshirani et al. En particulier, je ne vois pas pourquoi la condition de signe en ce que le signe de la coordonnée non nulle doit concorder avec le signe de la corrélation actuelle. Quelqu'un pourrait m'aider avec ça. Je suppose que je suis à la recherche d'une preuve mathématique utilisant la condition KKT sur le problème de norme L-1 d'origine, à savoir le Lasso. Merci beaucoup!
12
Réponses:
La résolution de ce problème pour toutes les valeurs de donne le soi-disant chemin de régularisation LASSO .λ>0 β∗(λ)
Pour une valeur fixe du coefficient de pénalisation (ie nombre fixe de prédicteurs actifs = pas fixe de l'algorithme LARS), il est possible de montrer que satisfait (il suffit d'écrire la condition de stationnarité KKT comme dans ce réponse )λ∗ β∗
avec représentant l'ensemble des prédicteurs actifs.A
Parce que doit être positif (c'est un coefficient de pénalisation), il est clair que le signe de (poids de tout prédicteur non nul donc actif) doit être le même que celui de ie la corrélation avec le résidu de régression courant.λ∗ β∗a XTa(y−Xβ∗)=XTar
la source
@ Mr._White a fourni une grande explication intuitive de la différence majeure entre LARS et Lasso; le seul point que j'ajouterais est que le lasso est (un peu) comme une approche de sélection en arrière, éliminant un terme à chaque étape tant qu'il existe un terme pour lequel de ces corrélations ("normalisées" sur ) existent. LARS conserve tout là-dedans - essentiellement en exécutant le lasso dans tous les ordres possibles. Cela signifie que dans le lasso, chaque itération dépend des termes qui ont déjà été supprimés.X×X
L'implémentation d'Effron illustre bien les différences: lars.R dans le paquet source pour lars . Notez l'étape de mise à jour des matrices matrice et partir de la ligne 180, et la suppression des termes pour lesquels . Je peux imaginer des situations étranges provenant d'espaces où les termes sont déséquilibrés ( et sont très corrélés mais pas avec les autres, avec mais pas avec les autres, etc.) l'ordre de sélection pourrait être assez biaisé.X×X ζ ζmin<ζcurrent A x1 x2 x2 x3
la source