Mais souvent, j'ai vu que l'estimateur Lasso peut s'écrire
Ma question est, sont l'équivalent? D'où vient le terme ? Le lien entre les deux formulations ne m'est pas évident.
[Mise à jour] Je suppose qu'une autre question que je devrais poser est,
Pourquoi y a-t-il la deuxième formulation? Quel est l'avantage, théorique ou informatique, de formuler le problème de cette façon?
Réponses:
Ils sont en effet équivalents puisque vous pouvez toujours redimensionner (voir aussi le commentaire de @ whuber). D'un point de vue théorique, c'est une question de commodité, mais pour autant que je sache, ce n'est pas nécessaire. D'un point de vue informatique, je trouve en fait le assez ennuyeux, donc j'utilise généralement la première formulation si je conçois un algorithme qui utilise la régularisation.λ 1/(2n)
Un peu d'histoire: lorsque j'ai commencé à apprendre les méthodes pénalisées, j'étais ennuyé de transporter le partout dans mon travail, j'ai donc préféré l'ignorer - cela a même simplifié certains de mes calculs. A cette époque, mon travail était principalement informatique. Plus récemment, j'ai fait un travail théorique et j'ai trouvé le indispensable (même contre, disons, ).1/(2n) 1/(2n) 1/n
Plus de détails: lorsque vous essayez d'analyser le comportement du Lasso en fonction de la taille de l'échantillon , vous devez souvent traiter des sommes de variables aléatoires iid, et dans la pratique, il est généralement plus pratique d'analyser ces sommes après normalisation par - -penser la loi des grands nombres / théorème de la limite centrale (ou si vous voulez obtenir la fantaisie, la concentration de mesure et la théorie des processus empiriques). Si vous n'avez pas le terme devant la perte, vous finissez par remettre à l'échelle quelque chose à la fin de l'analyse, il est donc généralement plus agréable de l'avoir là pour commencer. Le est pratique car il annule certains facteurs gênants den n 1/n 1/2 2 dans l'analyse (par exemple lorsque vous prenez la dérivée du terme de perte au carré).
Une autre façon de penser à cela est qu'en faisant de la théorie, nous nous intéressons généralement au comportement des solutions lorsque augmente - c'est-à-dire que n'est pas une certaine quantité fixe. En pratique, lorsque nous exécutons le Lasso sur un ensemble de données fixe, est en effet fixé du point de vue de l'algorithme / des calculs. Donc, avoir le facteur de normalisation supplémentaire à l'avant n'est pas très utile.n n n
Cela peut sembler ennuyeux, mais après avoir passé suffisamment de temps à manipuler ces types d'inégalités, j'ai appris à aimer le .1/(2n)
la source