Je suis un ingénieur en logiciel apprenant à apprendre les machines, en particulier grâce aux cours d'apprentissage automatique d' Andrew Ng . En étudiant la régression linéaire avec la régularisation , j'ai trouvé des termes déroutants:
- Régression avec régularisation L1 ou régularisation L2
- LASSO
- Régression Ridge
Donc mes questions:
La régression avec la régularisation de L1 est-elle exactement la même que celle de LASSO?
La régression avec la régularisation L2 est-elle exactement la même que la régression de crête?
Comment "LASSO" est-il utilisé dans l'écriture? Devrait-il s'agir de "régression LASSO"? J'ai vu un usage comme " le lasso est plus approprié ".
Si la réponse est "oui" pour 1 et 2 ci-dessus, alors pourquoi existe-t-il des noms différents pour ces deux termes? Est-ce que "L1" et "L2" viennent de l'informatique / maths, et "LASSO" et "Ridge" de stats?
L'utilisation de ces termes est source de confusion lorsque je vois des articles tels que:
" Quelle est la différence entre la régularisation L1 et L2? " (Quora.com)
" Quand devrais-je utiliser Lasso vs Ridge ? " (Stats.stackexchange.com)
la source
Réponses:
Oui.
Oui.
LASSO est en fait un acronyme (opérateur de sélection et de réduction du moins absolu), il devrait donc être capitalisé, mais l'écriture moderne est l'équivalent lexical de Mad Max . D'autre part, Amoeba écrit que même les statisticiens qui ont inventé le terme LASSO utilisent désormais le rendu en minuscule (Hastie, Tibshirani et Wainwright, Statistical Learning with Sparsity ). On ne peut que spéculer sur la motivation du changement. Si vous écrivez pour une presse académique, ils ont généralement un guide de style pour ce genre de chose. Si vous écrivez sur ce forum, l’un ou l’autre va bien, et je doute que l’on s’inquiète vraiment.
La notation est une référence aux normes de Minkowski et aux espaces . Celles-ci ne font que généraliser la notion de distances taxicab et euclidienne à dans l'expression suivante: Fait important, seul définit une distance métrique; ne satisfait pas l'inégalité du triangle, il ne s'agit donc pas d'une distance définie par la plupart des définitions.L Lp p>0
Je ne suis pas sûr de savoir quand la connexion entre Ridge et LASSO a été réalisée.
Pour ce qui est de la multiplicité des noms, il s’agit simplement de développer ces méthodes à différents endroits et à différentes époques. Un thème commun en statistique est que les concepts ont souvent plusieurs noms, un pour chaque sous-champ dans lequel ils ont été découverts indépendamment (fonctions du noyau vs fonctions de covariance, régression du processus gaussien vs Kriging, AUC vs -statistique). La régression Ridge devrait probablement s'appeler la régularisation de Tikhonov, car je crois qu'il revendique le plus tôt cette méthode. Pendant ce temps, LASSO n'a été introduit qu'en 1996, bien plus tard que la méthode de "crête" de Tikhonov!c
la source