Si p> n, le lasso sélectionne au plus n variables

13

L'une des motivations du filet élastique était la limitation suivante de LASSO:

Dans le cas p>n , le lasso sélectionne au plus n variables avant de saturer, en raison de la nature du problème d'optimisation convexe. Cela semble être une caractéristique limitante pour une méthode de sélection de variables. De plus, le lasso n'est pas bien défini à moins que la limite sur la norme L1 des coefficients ne soit inférieure à une certaine valeur.

( http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full )

Je comprends que LASSO est un problème de programmation quadratique mais peut également être résolu via LARS ou une descente de gradient par élément. Mais je ne comprends pas où dans ces algorithmes je rencontre un problème si p>np est le nombre de prédicteurs et n est la taille de l'échantillon. Et pourquoi ce problème est-il résolu en utilisant un filet élastique où j'augmente le problème à p+n variables qui dépassent clairement p .

user1137731
la source
2
Si le lasso restreint l'utilisation à garder p <= n, pourquoi est-ce un inconvénient plutôt qu'une vertu. le sur-ajustement est un problème grave qui survient lorsque p = n. Le modèle avec p = n est un modèle saturé et souvent ce modèle est surajusté car il s'adaptera parfaitement aux données observées mais ne prédira pas nécessairement bien les futurs cas.
Michael R. Chernick
3
Le fait que le lasso ne sélectionne que jusqu'à variables peut être considéré comme une conséquence du fait qu'il peut être résolu en utilisant (une légère modification de) l'algorithme LARS, qui n'admet que jusqu'à n variables dans l'ensemble actif à un moment donné. Le fait que cela ne se vérifie pas dans le cas du filet élastique résulte essentiellement de l'incorporation de la pénalité 2 et se comporte donc plus comme une régression de crête, cette dernière entraînant normalement tous les coefficients non nuls. nn2
Cardinal
Merci pour les réponses, et comment pourrais-je voir pour la descente de gradient qui au plus n variables peuvent être sélectionnées: Présentation à cs.cmu.edu/afs/cs/project/link-3/lafferty/www/ml-stat2/talks/ … Papier (section 4) sur datamining.dongguk.ac.kr/papers/GLASSO_JRSSB_V1.final.pdf
user1137731
3
@user: Je pense que vous confondez le problème mathématique avec sa solution numérique. L'algorithme LARS montre que la solution de lasso sélectionnera au plus variables. Ceci est indépendant des moyens numériques réels pour arriver à la solution, c'est-à-dire que l'algorithme LARS donne un aperçu du problème, mais bien sûr, toute autre méthode qui résout le problème de manière équivalente doit avoir la même propriété! :-)n
Cardinal
Considérons une fonction fois dupliquée . Il existera un estimateur au lasso avec exactement p non- zéros (même si p > n ) Par conséquent, votre affirmation n'est pas vraie telle qu'elle est écrite. ppp>n
user795305

Réponses:

10

Comme dit, ce n'est pas la propriété d'un algorithme mais du problème d'optimisation. Les conditions KKT donnent essentiellement que pour que le coefficient soit non nul, il doit correspondre à une corrélation fixe avec le résidu | X t j ( y - X β ) | = λ (βj|Xjt(yXβ)|=λ est le paramètre de régularisation).λ

Après avoir résolu les diverses complications avec une valeur absolue, etc., vous vous retrouvez avec une équation linéaire pour chaque coefficient non nul. Puisque le rang de la matrice est au plus n lorsque p >Xn , c'est le nombre d'équations qui peuvent être résolues, et donc il y a au plus n non-zéros (sauf s'il y a des redondances).p>n

Soit dit en passant, cela est vrai pour toute fonction de perte, pas seulement pour le lasso standard avec perte de . C'est donc en fait une propriété de la peine de lasso. Il existe de nombreux articles qui montrent cette vue KKT et les conclusions qui en résultent, je peux citer notre article: Rosset et Zhu, Piecewise Linear Regularized Solutions Paths, Annals of Stats 2007 et les références qui s'y trouvent.L2

Saharon Rosset
la source
Que signifie KKT? En outre, est-il possible que vous parliez d'une perte de L1 lorsque vous parlez du lasso standard?
miura
Salut Saharon et bienvenue sur le site. Vous pouvez utiliser LaTeX pour rendre les formules plus propres (je l'ai fait dans votre réponse) et vous n'avez pas besoin de signer vos messages, car une signature est ajoutée automatiquement.
Peter Flom - Réintègre Monica
1
@miura: KKT signifie Karush-Kuhn-Tucker. Les conditions KKT sont certaines équations que les solutions aux problèmes d'optimisation (suffisamment réguliers) doivent remplir ( article wikipedia ).
mogron
Je viens de voir que Ryan Tibshirani a un document de travail très pertinent «Le problème du lasso et l'unicité»: stat.cmu.edu/~ryantibs/papers/lassounique.pdf
user1137731
6

Une autre explication est la suivante: si , le rang de la matrice de données X est au plus n , donc la dimension de son espace nul (à droite) est au moins p - n . Écrivez n'importe quel vecteur dans cet espace nul comme z . Ensuite, en tout point réalisable β , on peut toujours se déplacer dans cet espace nul p - n- dimensionnel vers les axes de coordonnées de l' espace ambiant p- dimensionnel, pour arriver à a β + z , où (au plus) n β j s sont non nul et la fonction objectif LASSOn<pXnpnzβpnpβ+zn βj

yX(β+z)22+λβ+z1=yXβ22+λβ+z1<yXβ22+λβ1

a diminué.

user2969758
la source
(+1) There's a gap here: see my comment on OPs post.
user795305