L'une des motivations du filet élastique était la limitation suivante de LASSO:
Dans le cas , le lasso sélectionne au plus n variables avant de saturer, en raison de la nature du problème d'optimisation convexe. Cela semble être une caractéristique limitante pour une méthode de sélection de variables. De plus, le lasso n'est pas bien défini à moins que la limite sur la norme L1 des coefficients ne soit inférieure à une certaine valeur.
( http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full )
Je comprends que LASSO est un problème de programmation quadratique mais peut également être résolu via LARS ou une descente de gradient par élément. Mais je ne comprends pas où dans ces algorithmes je rencontre un problème si où est le nombre de prédicteurs et est la taille de l'échantillon. Et pourquoi ce problème est-il résolu en utilisant un filet élastique où j'augmente le problème à variables qui dépassent clairement .
la source
Réponses:
Comme dit, ce n'est pas la propriété d'un algorithme mais du problème d'optimisation. Les conditions KKT donnent essentiellement que pour que le coefficient soit non nul, il doit correspondre à une corrélation fixe avec le résidu | X t j ( y - X β ) | = λ (βj |Xtj(y−Xβ)|=λ est le paramètre de régularisation).λ
Après avoir résolu les diverses complications avec une valeur absolue, etc., vous vous retrouvez avec une équation linéaire pour chaque coefficient non nul. Puisque le rang de la matrice est au plus n lorsque p >X n , c'est le nombre d'équations qui peuvent être résolues, et donc il y a au plus n non-zéros (sauf s'il y a des redondances).p>n
Soit dit en passant, cela est vrai pour toute fonction de perte, pas seulement pour le lasso standard avec perte de . C'est donc en fait une propriété de la peine de lasso. Il existe de nombreux articles qui montrent cette vue KKT et les conclusions qui en résultent, je peux citer notre article: Rosset et Zhu, Piecewise Linear Regularized Solutions Paths, Annals of Stats 2007 et les références qui s'y trouvent.L2
la source
Une autre explication est la suivante: si , le rang de la matrice de données X est au plus n , donc la dimension de son espace nul (à droite) est au moins p - n . Écrivez n'importe quel vecteur dans cet espace nul comme z . Ensuite, en tout point réalisable β , on peut toujours se déplacer dans cet espace nul p - n- dimensionnel vers les axes de coordonnées de l' espace ambiant p- dimensionnel, pour arriver à a β + z , où (au plus) n β j s sont non nul et la fonction objectif LASSOn<p X n p−n z β p−n p β+z n βj
a diminué.
la source