Lien entre les formulations de Lasso

$L$

min_{β} ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1}

$\min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 \;$

Mais souvent, j'ai vu que l'estimateur Lasso peut s'écrire

{\hat{β}}_{n} (λ) = \arg min_{β} {\frac{1}{2 n} ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1}}

$\hat{\beta}_n(\lambda) = \displaystyle\arg \min_{\beta} \{\frac {1}{2n} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 \}$

Ma question est, sont l'équivalent? D'où vient le terme $\frac {1}{2n}$ ? Le lien entre les deux formulations ne m'est pas évident.

[Mise à jour] Je suppose qu'une autre question que je devrais poser est,

Pourquoi y a-t-il la deuxième formulation? Quel est l'avantage, théorique ou informatique, de formuler le problème de cette façon?

lasso Aaron Zeng
la source

Si vous définissez dans la deuxième formulation égal à fois le dans la première formulation, alors la fonction objectif dans la deuxième formulation est fois la fonction objectif dans la première formulation. En effet, vous venez de modifier les unités de mesure de la perte. Comment pensez-vous que cela changerait les valeurs optimales de ?

λ

$\lambda$

1 / (2 n)

$1/(2n)$

λ

$\lambda$

1 / (2 n)

$1/(2n)$

β

$\beta$

whuber

Merci, @Whuber. Cela me semble logique. Alors pourquoi y a-t-il cette dernière formulation? Quel est l'avantage, théorique ou informatique, de formuler le problème de cette façon?

Aaron Zeng

Ils sont en effet équivalents puisque vous pouvez toujours redimensionner (voir aussi le commentaire de @ whuber). D'un point de vue théorique, c'est une question de commodité, mais pour autant que je sache, ce n'est pas nécessaire. D'un point de vue informatique, je trouve en fait le assez ennuyeux, donc j'utilise généralement la première formulation si je conçois un algorithme qui utilise la régularisation. $\lambda$ $1/(2n)$

Un peu d'histoire: lorsque j'ai commencé à apprendre les méthodes pénalisées, j'étais ennuyé de transporter le partout dans mon travail, j'ai donc préféré l'ignorer - cela a même simplifié certains de mes calculs. A cette époque, mon travail était principalement informatique. Plus récemment, j'ai fait un travail théorique et j'ai trouvé le indispensable (même contre, disons, ). $1/(2n)$ $1/(2n)$ $1/n$

Plus de détails: lorsque vous essayez d'analyser le comportement du Lasso en fonction de la taille de l'échantillon , vous devez souvent traiter des sommes de variables aléatoires iid, et dans la pratique, il est généralement plus pratique d'analyser ces sommes après normalisation par - -penser la loi des grands nombres / théorème de la limite centrale (ou si vous voulez obtenir la fantaisie, la concentration de mesure et la théorie des processus empiriques). Si vous n'avez pas le terme devant la perte, vous finissez par remettre à l'échelle quelque chose à la fin de l'analyse, il est donc généralement plus agréable de l'avoir là pour commencer. Le est pratique car il annule certains facteurs gênants de $n$ $n$ $1/n$ $1/2$ $2$ dans l'analyse (par exemple lorsque vous prenez la dérivée du terme de perte au carré).

Une autre façon de penser à cela est qu'en faisant de la théorie, nous nous intéressons généralement au comportement des solutions lorsque augmente - c'est-à-dire que n'est pas une certaine quantité fixe. En pratique, lorsque nous exécutons le Lasso sur un ensemble de données fixe, est en effet fixé du point de vue de l'algorithme / des calculs. Donc, avoir le facteur de normalisation supplémentaire à l'avant n'est pas très utile. $n$ $n$ $n$

Cela peut sembler ennuyeux, mais après avoir passé suffisamment de temps à manipuler ces types d'inégalités, j'ai appris à aimer le . $1/(2n)$

JohnA
la source

Une fois que vous avez réalisé à quoi servent ces constantes de normalisation, vous commencez à les voir partout .

Matthew Drury

Merci pour cette explication. Nous sommes très fiers de lire vos grandes expériences dans ce domaine. Merci encore

Christina

Lien entre les formulations de Lasso

Réponses: