Pourquoi le Lasso fournit-il une sélection variable?

Je lisais Éléments d'apprentissage statistique et j'aimerais savoir pourquoi le lasso fournit une sélection de variables et non la régression de crête.

Les deux méthodes minimisent la somme des carrés résiduels et ont une contrainte sur les valeurs possibles des paramètres . Pour le lasso, la contrainte est , alors que pour la crête, elle est , pour certains . $\beta$ $||\beta||_1 \le t$ $||\beta||_2 \le t$ $t$

J'ai vu la photo diamant vs ellipse dans le livre et j'ai une certaine idée du pourquoi le lasso peut frapper les coins de la région contrainte, ce qui implique que l'un des coefficients est défini à zéro. Cependant, mon intuition est plutôt faible et je ne suis pas convaincu. Cela devrait être facile à voir, mais je ne sais pas pourquoi cela est vrai.

Je suppose donc que je recherche une justification mathématique ou une explication intuitive de la raison pour laquelle les contours de la somme des carrés résiduels risquent de heurter les coins de la région contrainte (alors que cette situation est peu probable si la contrainte est ). $||\beta||_1$ $||\beta||_2$

regression feature-selection lasso regularization Zhi Zhao
la source

Toutes les réponses ci-dessous sont de bonnes explications. Mais je publie un article avec une représentation visuelle. Voici le lien medium.com/@vamsi149/…

solver149

Réponses:

Considérons un modèle très simple: , avec une pénalité L1 sur et une fonction de perte par les moindres carrés sur . Nous pouvons développer l'expression à minimiser comme suit: $y = \beta x + e$ $\hat{\beta}$ $\hat{e}$

$\min y^Ty -2 y^Tx\hat{\beta} + \hat{\beta} x^Tx\hat{\beta} + 2\lambda|\hat{\beta}|$

Supposons que la solution des moindres carrés est , ce qui revient à supposer que , et voyons ce qui se passe lorsque nous ajoutons la pénalité L1. Avec , , la peine est donc égale à . La dérivée de la fonction objectif par rapport à est: $\hat{\beta} > 0$ $y^Tx > 0$ $\hat{\beta}>0$ $|\hat{\beta}| = \hat{\beta}$ $2\lambda\beta$ $\hat{\beta}$

$-2y^Tx +2x^Tx\hat{\beta} + 2\lambda$

qui a évidemment la solution . $\hat{\beta} = (y^Tx - \lambda)/(x^Tx)$

Evidemment, en augmentant nous pouvons conduire à zéro (à ). Cependant, une fois que , l'augmentation de ne la conduira pas à un résultat négatif, car si vous écrivez de manière vague, l'instant devient négatif, la dérivée de la fonction objectif devient: $\lambda$ $\hat{\beta}$ $\lambda = y^Tx$ $\hat{\beta} = 0$ $\lambda$ $\hat{\beta}$

$-2y^Tx +2x^Tx\hat{\beta} - 2\lambda$

où le retournement dans le signe de est dû à la nature absolue du terme de la peine; quand devient négatif, le terme de pénalité devient égal à , et prendre le dérivé wt donne . Ceci conduit à la solution , qui est évidemment incompatible avec (étant donné que la solution des moindres carrés , ce qui implique , et $\lambda$ $\beta$ $-2\lambda\beta$ $\beta$ $-2\lambda$ $\hat{\beta} = (y^Tx + \lambda)/(x^Tx)$ $\hat{\beta} < 0$ $> 0$ $y^Tx > 0$ $\lambda > 0$ ). Il y a une augmentation de la pénalité N1 ET une augmentation du terme d'erreur au carré (car nous nous éloignons de la solution des moindres carrés) lors du déplacement de de à , nous ne le faisons donc pas. coller à . $\hat{\beta}$ $0$ $< 0$ $\hat{\beta}=0$

Il devrait être intuitivement clair que la même logique s'applique, avec les changements de signe appropriés, pour une solution des moindres carrés avec . $\hat{\beta} < 0$

Avec la peine des moindres carrés , le dérivé devient: $\lambda\hat{\beta}^2$

$-2y^Tx +2x^Tx\hat{\beta} + 2\lambda\hat{\beta}$

qui a évidemment solution . Evidemment, aucune augmentation de ne mènera à zéro. Par conséquent, la pénalité N2 ne peut pas servir d’outil de sélection de variable sans quelques règles d’adaptation légères, telles que "définir l’estimation du paramètre sur zéro si elle est inférieure à ". $\hat{\beta} = y^Tx/(x^Tx + \lambda)$ $\lambda$ $\epsilon$

Évidemment, les choses peuvent changer lorsque vous passez à des modèles multivariés. Par exemple, déplacer une estimation de paramètre peut en forcer un autre à changer de signe, mais le principe général est le même: la fonction de pénalité L2 ne peut pas vous amener à zéro, parce que, écrivant de manière très heuristique, elle ajoute en fait au "dénominateur" de l'expression de , mais la fonction de pénalité L1 peut, car elle ajoute en réalité au "numérateur". $\hat{\beta}$

Jbowman
la source

Est-ce que Lasso fournit également une sélection de caractéristiques dans le cas de modèles non linéaires, par exemple NN?

Ilya

Une petite question de suivi: comment peut-il être si est un vecteur et est un scalaire que nous pouvons varier pour trouver l’ajustement?

λ = y^{T} x

$\lambda = y^Tx$

y^{T} x

$y^Tx$

λ

$\lambda$

Jekaterina Kokatjuhha

J'utilisais un exemple univarié, donc est un scalaire. Si vous résolvez un problème multivarié, alors est multiplié par un vecteur de ceux dont la longueur = la taille de ou la matrice d'identité de taille appropriée, selon le problème à résoudre. Vous pouvez résoudre ce problème en notant, par exemple, que la norme L2 de = et en effectuant des substitutions dans les formules ci-dessus.

y^{T} x

$y^Tx$

λ

$\lambda$

β

$\beta$

z

$z$

z^{T} I z

$z^T\text{I}z$

jbowman

Serait-il possible de montrer (mathématiquement?) Comment le signe du lambda bascule du fait de la nature absolue de la fonction de pénalité, car je suis incapable de suivre cette partie de la logique.

user1420372

@ user1420372 - ont fait; laissez-moi savoir ce que vous pensez.

jbowman

Supposons que nous ayons un ensemble de données avec y = 1 et x = [1/10 1/10] (un point de données, deux entités). Une solution consiste à choisir l'une des fonctionnalités, une autre fonctionnalité consiste à pondérer les deux. Nous pouvons donc choisir w = [5 5] ou w = [10 0].

Notez que pour la norme L1, les deux ont la même pénalité, mais que le poids plus dispersé a une pénalité inférieure pour la norme L2.

blarg
la source

Je pense qu’il existe déjà d’excellentes réponses, mais je voudrais ajouter une certaine intuition concernant l’interprétation géométrique:

"Le lasso effectue un retrait , de sorte qu'il y ait des" coins "dans la contrainte, ce qui correspond en deux dimensions à un losange. Si la somme des carrés" frappe "l'un de ces coins, le coefficient correspondant à l'axe est réduit. à zéro. $L1$

Au fur et à mesure que augmente, le diamant multidimensionnel a un nombre croissant d'angles et il est donc très probable que certains coefficients soient égaux à zéro. Par conséquent, le lasso effectue un retrait et une sélection (efficace) de sous-ensembles. $p$

Contrairement à la sélection de sous-ensembles, l'arête effectue un seuillage progressif: lorsque le paramètre de lissage est modifié, la trajectoire d'échantillonnage des estimations se déplace continuellement vers zéro. "

Source: https://onlinecourses.science.psu.edu/stat857/book/export/html/137

L'effet peut être bien visualisé où les lignes colorées sont les chemins des coefficients de régression se ramenant à zéro.

"La régression de crête réduit tous les coefficients de régression vers zéro; le lasso tend à donner un ensemble de coefficients de régression nuls et conduit à une solution clairsemée."

Source: https://onlinecourses.science.psu.edu/stat857/node/158

vonjd
la source