La perte L2, ainsi que la perte L0 et L1, sont trois fonctions de perte "par défaut" très courantes utilisées pour résumer une perte postérieure minimale par la perte attendue postérieure. Une des raisons à cela est peut-être qu'elles sont relativement faciles à calculer (au moins pour les distributions 1d), L0 donne le mode, L1 la médiane et L2 la moyenne. Lors de l'enseignement, je peux trouver des scénarios où L0 et L1 sont des fonctions de perte raisonnables (et pas seulement "par défaut"), mais je me bats avec un scénario où L2 serait une fonction de perte raisonnable. Donc ma question:
À des fins pédagogiques, quel serait un exemple de cas où L2 est une bonne fonction de perte pour calculer une perte postérieure minimale?
Pour L0, il est facile de trouver des scénarios de paris. Supposons que vous ayez calculé une valeur a posteriori sur le nombre total de buts dans un match de football à venir et que vous allez faire un pari où vous gagnez $$$ si vous devinez correctement le nombre de buts et perdez autrement. Alors L0 est une fonction de perte raisonnable.
Mon exemple L1 est un peu artificiel. Vous rencontrez une amie qui arrivera dans l'un des nombreux aéroports et se rendra ensuite en voiture, le problème est que vous ne savez pas quel aéroport (et ne pouvez pas appeler votre amie parce qu'elle est en l'air). Étant donné la position postérieure de l'aéroport dans lequel elle pourrait atterrir, où est un bon endroit pour vous positionner de sorte que la distance entre elle et vous soit petite, lorsqu'elle arrivera? Ici, le point qui minimise la perte de L1 attendue semble raisonnable, si l'on fait l'hypothèse simplificatrice que sa voiture se rendra à vitesse constante directement jusqu'à votre emplacement. Autrement dit, une attente d'une heure est deux fois plus mauvaise qu'une attente de 30 minutes.
la source
Réponses:
L2 est "facile". C'est ce que vous obtenez par défaut si vous faites des méthodes matricielles standard comme la régression linéaire, SVD, etc. Jusqu'à ce que nous ayons des ordinateurs, L2 était le seul jeu en ville pour beaucoup de problèmes, c'est pourquoi tout le monde utilise l'ANOVA, les tests t, etc. Il est également plus facile d'obtenir une réponse exacte en utilisant la perte L2 avec de nombreuses méthodes plus sophistiquées comme les processus gaussiens que d'obtenir une réponse exacte en utilisant d'autres fonctions de perte.
De manière similaire, vous pouvez obtenir la perte L2 exactement en utilisant une approximation de Taylor de second ordre, ce qui n'est pas le cas pour la plupart des fonctions de perte (par exemple, entropie croisée). Cela facilite l'optimisation avec des méthodes de second ordre comme la méthode de Newton. De nombreuses méthodes pour traiter d'autres fonctions de perte utilisent toujours des méthodes pour la perte de L2 sous le capot pour la même raison (par exemple, moindres carrés repondérés de manière itérative, approximations de Laplace imbriquées intégrées).
L2 est étroitement lié aux distributions gaussiennes, et le théorème de la limite centrale rend les distributions gaussiennes communes. Si votre processus de génération de données est (conditionnellement) gaussien, alors L2 est l'estimateur le plus efficace.
La perte de L2 se décompose bien, en raison de la loi de la variance totale. Cela rend certains modèles graphiques avec des variables latentes particulièrement faciles à ajuster.
L2 pénalise les prédictions terribles de manière disproportionnée. Cela peut être bon ou mauvais, mais c'est souvent assez raisonnable. Une attente d'une heure peut être quatre fois plus mauvaise qu'une attente de 30 minutes, en moyenne, si elle fait que beaucoup de gens manquent leur rendez-vous.
la source