On m'a donc posé une question sur laquelle les mesures centrales L1 (c.-à-d. Le lasso) et L2 (c.-à-d. La régression des crêtes) ont été estimées. La réponse est L1 = médiane et L2 = moyenne. Y a-t-il un type de raisonnement intuitif à cela? Ou faut-il le déterminer algébriquement? Si oui, comment dois-je procéder?
24
Réponses:
Il existe une explication géométrique simple pour expliquer pourquoi la fonction de perte L1 donne la médiane.
Rappelez-vous que nous travaillons dans une seule dimension, alors imaginez une droite numérique s'étalant horizontalement. Tracez chacun des points de données sur la droite numérique. Mettez votre doigt quelque part sur la ligne; votre doigt sera votre estimation actuelle du candidat.
Supposons que vous déplaciez votre doigt un peu vers la droite, par exemple unités vers la droite. Qu'arrive-t-il à la perte totale? Eh bien, si votre doigt était entre deux points de données et que vous le déplacez sur un point de données, vous avez augmenté la perte totale de pour chaque point de données à gauche de votre doigt et diminué de pour chaque donnée pointez vers la droite de votre doigt. Donc, s'il y a plus de points de données à droite de votre doigt qu'il n'y en a à gauche, déplacer votre doigt vers la droite diminue la perte totale. En d'autres termes, si plus de la moitié des points de données se trouvent à droite de votre doigt, vous devez déplacer votre doigt vers la droite.δ δδ δ δ
Cela vous amène à déplacer votre doigt vers un endroit où la moitié des points de données se trouvent à cet endroit et la moitié à droite. Cet endroit est la médiane.
C'est L1 et la médiane. Malheureusement, je n'ai pas d'explication similaire, "toute intuition, pas d'algèbre" pour L2 et la moyenne.
la source
Cette explication est un résumé du muratoa et des commentaires d'Yves sur la réponse de DW. Bien qu'il soit basé sur le calcul, je l'ai trouvé simple et facile à comprendre.
En supposant que nous avons et vouloir obtenir une nouvelle estimation β basée sur eux. La plus petite perte est obtenue lorsque l'on trouve β qui rend la dérivée de la perte à zéro.y1, y2, . . . yk β β
Perte L1
∂L1
Perte de L2
la source
Ajout à la réponse de DW avec un exemple encore plus pratique (pour la fonction de perte L2 également):
Imaginez un petit village composé de 4 maisons proches les unes des autres (par exemple 10 mètres). A 1 kilomètre de ceux-ci, vous avez une autre maison très isolée. Maintenant, vous arrivez dans cette ville et souhaitez construire votre propre maison quelque part. Vous voulez vivre près des autres maisons et être ami avec tout le monde. Considérez ces deux scénarios alternatifs:
Vous décidez d'être à l'endroit où la distance moyenne à n'importe quelle maison est la plus petite (c'est-à-dire en minimisant une fonction de perte L1).
Ainsi, la distance moyenne la plus basse de 100 mètres est atteinte en construisant votre maison dans le village. Plus précisément, vous construirez votre maison au milieu de ces 4 maisons pour gagner encore quelques mètres de distance moyenne. Et il s'avère que ce point est le " point médian ", que vous auriez obtenu de la même manière en utilisant la formule médiane.
Alors oui, il est intéressant de remarquer que, un peu contre-intuitivement, quand on minimise la somme des distances, on ne se retrouve pas au "milieu" au sens de la moyenne, mais au sens du médian. Cela fait partie des raisons pour lesquelles OLS, l'un des modèles de régression les plus populaires, utilise des erreurs quadratiques plutôt que des erreurs absolues.
la source
En plus des réponses déjà publiées (qui m'ont été très utiles!), Il existe une explication géométrique du lien entre la norme L2 et la moyenne.
Pour utiliser la même notation que chefwen , la formule pour la perte L2 est:
la source