La régression avec la régularisation L1 est-elle identique à celle de Lasso, et avec la régularisation L2 est-elle identique à la régression de crête? Et comment écrire «Lasso»?

Je suis un ingénieur en logiciel apprenant à apprendre les machines, en particulier grâce aux cours d'apprentissage automatique d' Andrew Ng . En étudiant la régression linéaire avec la régularisation , j'ai trouvé des termes déroutants:

Régression avec régularisation L1 ou régularisation L2
LASSO
Régression Ridge

Donc mes questions:

La régression avec la régularisation de L1 est-elle exactement la même que celle de LASSO?
La régression avec la régularisation L2 est-elle exactement la même que la régression de crête?
Comment "LASSO" est-il utilisé dans l'écriture? Devrait-il s'agir de "régression LASSO"? J'ai vu un usage comme " le lasso est plus approprié ".

Si la réponse est "oui" pour 1 et 2 ci-dessus, alors pourquoi existe-t-il des noms différents pour ces deux termes? Est-ce que "L1" et "L2" viennent de l'informatique / maths, et "LASSO" et "Ridge" de stats?

L'utilisation de ces termes est source de confusion lorsque je vois des articles tels que:

" Quelle est la différence entre la régularisation L1 et L2? " (Quora.com)

" Quand devrais-je utiliser Lasso vs Ridge ? " (Stats.stackexchange.com)

regression terminology lasso regularization ridge-regression stackoverflowuser2010
la source

Bien que je réponde tard. Ce guide complet du débutant pour les régressions Linéaire, Ridge et Lasso aidera les débutants à comprendre ces termes clairement. Voir ici

apprenant le

Oui.
Oui.
LASSO est en fait un acronyme (opérateur de sélection et de réduction du moins absolu), il devrait donc être capitalisé, mais l'écriture moderne est l'équivalent lexical de Mad Max . D'autre part, Amoeba écrit que même les statisticiens qui ont inventé le terme LASSO utilisent désormais le rendu en minuscule (Hastie, Tibshirani et Wainwright, Statistical Learning with Sparsity ). On ne peut que spéculer sur la motivation du changement. Si vous écrivez pour une presse académique, ils ont généralement un guide de style pour ce genre de chose. Si vous écrivez sur ce forum, l’un ou l’autre va bien, et je doute que l’on s’inquiète vraiment.

La notation est une référence aux normes de Minkowski et aux espaces . Celles-ci ne font que généraliser la notion de distances taxicab et euclidienne à dans l'expression suivante: Fait important, seul définit une distance métrique; ne satisfait pas l'inégalité du triangle, il ne s'agit donc pas d'une distance définie par la plupart des définitions. $L$ $L^p$ $p>0$

‖ x ‖_{p} = (| x_{1} |^{p} + | x_{2} |^{p} + . . . + | x_{n} |^{p})^{\frac{1}{p}}

$\|x\|_p=(|x_1|^p+|x_2|^p+...+|x_n|^p)^{\frac{1}{p}}$

p \geq 1

$p\ge 1$

0 < p < 1

$0<p<1$

Je ne suis pas sûr de savoir quand la connexion entre Ridge et LASSO a été réalisée.

Pour ce qui est de la multiplicité des noms, il s’agit simplement de développer ces méthodes à différents endroits et à différentes époques. Un thème commun en statistique est que les concepts ont souvent plusieurs noms, un pour chaque sous-champ dans lequel ils ont été découverts indépendamment (fonctions du noyau vs fonctions de covariance, régression du processus gaussien vs Kriging, AUC vs -statistique). La régression Ridge devrait probablement s'appeler la régularisation de Tikhonov, car je crois qu'il revendique le plus tôt cette méthode. Pendant ce temps, LASSO n'a été introduit qu'en 1996, bien plus tard que la méthode de "crête" de Tikhonov! $c$

Sycorax dit Réintégrer Monica
la source

+1 Dans le très récent manuel de Statistical Learning with Sparsity , Hastie, Tibshirani et Wainwright utilisent partout un "lasso" en minuscule et écrivent également ce qui suit (note en bas de page 8): "Un lasso est une longue corde avec un nœud coulant fin, utilisé pour attraper les chevaux et les bovins. Au sens figuré, la méthode "lassos" les coefficients du modèle. Dans le document original de lasso (Tibshirani 1996), le nom "lasso" a également été introduit comme acronyme de "Least Absolute Opérateur de sélection et de retrait. ”" (CC à @ stackoverflowuser2010.)

amibe dit Rétablir Monica

Et ils continuent: "Prononciation: aux États-Unis,“ lasso ”a tendance à être prononcé“ lass-oh ”(oh, comme chez la chèvre), alors qu'au Royaume-Uni,“ lass-oo ”. Dans l'OED (2e édition, 1965):“ Le lasso est prononcé lasoo par ceux qui l'utilisent, et par la plupart des Anglais également. "" :-)

amoeba dit Reinstate Monica

(+1) Au fur et à mesure que les sigles (ces abréviations sont prononcées comme des mots) gagnent en popularité, leur capitalisation tend à disparaître. Cela fait longtemps que je n'ai pas vu RADAR ou LASER.

Scortchi - Réintégrer Monica

@Scortchi SCUBA aussi. En attendant, nous avons des gens qui écrivent STATA et MATLAB comme s’ils étaient des acronymes.

shadowtalker

@ssdecontrol: "ANOVA" doit-il être "AnOVa" alors?

Scortchi - Réintégrer Monica

La régression avec la régularisation L1 est-elle identique à celle de Lasso, et avec la régularisation L2 est-elle identique à la régression de crête? Et comment écrire «Lasso»?

Réponses: