Quel serait un exemple de cas où L2 est une bonne fonction de perte pour calculer une perte postérieure?

9

La perte L2, ainsi que la perte L0 et L1, sont trois fonctions de perte "par défaut" très courantes utilisées pour résumer une perte postérieure minimale par la perte attendue postérieure. Une des raisons à cela est peut-être qu'elles sont relativement faciles à calculer (au moins pour les distributions 1d), L0 donne le mode, L1 la médiane et L2 la moyenne. Lors de l'enseignement, je peux trouver des scénarios où L0 et L1 sont des fonctions de perte raisonnables (et pas seulement "par défaut"), mais je me bats avec un scénario où L2 serait une fonction de perte raisonnable. Donc ma question:

À des fins pédagogiques, quel serait un exemple de cas où L2 est une bonne fonction de perte pour calculer une perte postérieure minimale?

Pour L0, il est facile de trouver des scénarios de paris. Supposons que vous ayez calculé une valeur a posteriori sur le nombre total de buts dans un match de football à venir et que vous allez faire un pari où vous gagnez $$$ si vous devinez correctement le nombre de buts et perdez autrement. Alors L0 est une fonction de perte raisonnable.

Mon exemple L1 est un peu artificiel. Vous rencontrez une amie qui arrivera dans l'un des nombreux aéroports et se rendra ensuite en voiture, le problème est que vous ne savez pas quel aéroport (et ne pouvez pas appeler votre amie parce qu'elle est en l'air). Étant donné la position postérieure de l'aéroport dans lequel elle pourrait atterrir, où est un bon endroit pour vous positionner de sorte que la distance entre elle et vous soit petite, lorsqu'elle arrivera? Ici, le point qui minimise la perte de L1 attendue semble raisonnable, si l'on fait l'hypothèse simplificatrice que sa voiture se rendra à vitesse constante directement jusqu'à votre emplacement. Autrement dit, une attente d'une heure est deux fois plus mauvaise qu'une attente de 30 minutes.

Rasmus Bååth
la source
Avertissement: L0 n'entraîne pas le mode pour des problèmes continus ....
Xi'an
Hmm, ouais je sais que c'est un peu bâclé de dire le mode L0 ->.
Rasmus Bååth
2
En regardant la loi du carré inverse, si vous avez plusieurs sources de lumière placées de sorte que tout point dans l'espace que nous pouvons choisir obtiendra une lumière négligeable de toutes, sauf la source la plus proche, utiliser la perte L2 équivaudrait à vouloir minimiser, disons, le nombre de secondes par lumen reçu. Je ne vois pas pourquoi vous voudriez faire cela, cependant, plutôt que de maximiser les lumens par seconde.
Statisticien accidentel du

Réponses:

4
  1. L2 est "facile". C'est ce que vous obtenez par défaut si vous faites des méthodes matricielles standard comme la régression linéaire, SVD, etc. Jusqu'à ce que nous ayons des ordinateurs, L2 était le seul jeu en ville pour beaucoup de problèmes, c'est pourquoi tout le monde utilise l'ANOVA, les tests t, etc. Il est également plus facile d'obtenir une réponse exacte en utilisant la perte L2 avec de nombreuses méthodes plus sophistiquées comme les processus gaussiens que d'obtenir une réponse exacte en utilisant d'autres fonctions de perte.

  2. De manière similaire, vous pouvez obtenir la perte L2 exactement en utilisant une approximation de Taylor de second ordre, ce qui n'est pas le cas pour la plupart des fonctions de perte (par exemple, entropie croisée). Cela facilite l'optimisation avec des méthodes de second ordre comme la méthode de Newton. De nombreuses méthodes pour traiter d'autres fonctions de perte utilisent toujours des méthodes pour la perte de L2 sous le capot pour la même raison (par exemple, moindres carrés repondérés de manière itérative, approximations de Laplace imbriquées intégrées).

  3. L2 est étroitement lié aux distributions gaussiennes, et le théorème de la limite centrale rend les distributions gaussiennes communes. Si votre processus de génération de données est (conditionnellement) gaussien, alors L2 est l'estimateur le plus efficace.

  4. La perte de L2 se décompose bien, en raison de la loi de la variance totale. Cela rend certains modèles graphiques avec des variables latentes particulièrement faciles à ajuster.

  5. L2 pénalise les prédictions terribles de manière disproportionnée. Cela peut être bon ou mauvais, mais c'est souvent assez raisonnable. Une attente d'une heure peut être quatre fois plus mauvaise qu'une attente de 30 minutes, en moyenne, si elle fait que beaucoup de gens manquent leur rendez-vous.

David J. Harris
la source
2
Hmm, ce que je cherchais était plus comme une situation de décision où L2 serait une fonction de perte raisonnable. Comme le scénario similaire aux deux exemples de ma question, mais pour L2.
Rasmus Bååth
1
@ RasmusBååth Je ne suis pas sûr d'un argument pour exactement la quadrature de la perte (en dehors de sa connexion aux processus générateurs de données gaussiens dans le n ° 3), mais le n ° 5 est un argument pour une fonction de perte accélérée d'une certaine sorte. Au deuxième ordre, une telle fonction correspondra à la perte L2.
David J. Harris
@ DavidJ.Harris En fait, # 5 est incorrect. Ce que vous feriez dans un tel cas est d'utiliser la perte L1 abs (xy) pour minimiser la frustration = temps². Utiliser la perte (xy) ² pour le temps, comme vous l'avez suggéré, vous donnera en fait un résultat sous-optimal.
Íhor Mé
@ ÍhorMé Je pense que je dois vous mal comprendre. Il semble que vous disiez que la meilleure façon de minimiser l' erreur quadratique est de minimiser la perte absolue , et non la norme L2.
David J. Harris
@ DavidJ.Harris Oui, j'essayais de faire valoir qu'il s'agit d'un problème de minimisation de la "méchanceté" (= diff. De temps) et non du temps passé à attendre, essentiellement, mais je pense que j'ai mal compris l'expérience de pensée à l'origine. Maintenant que je le relis, L2 est un moyen légitime de passer de la minimisation de la différence de temps à la minimisation de la "méchanceté". Bien que, je dois dire, il est préférable pour un programmeur d'identifier d'abord correctement la "méchanceté" qu'il veut minimiser, puis d'obtenir cette valeur, puis de la minimiser via L1. Dans ce cas, vous obtenez d'abord (diff temporel) ² puis minimisez la perte de L1. N'utilisez L2 que lorsque vous savez ce que vous faites.
Íhor Mé