Pourquoi les fonctions de coût utilisent-elles l'erreur de carré?

73

Je commence tout juste avec un apprentissage en machine et, jusqu'à présent, je m'occupais de la régression linéaire sur une variable.

J'ai appris qu'il y a une hypothèse qui est:

hθ(X)=θ0+θ1X

Pour trouver de bonnes valeurs pour les paramètres et nous souhaitons minimiser la différence entre le résultat calculé et le résultat réel de nos données de test. Alors on soustraitθ 1θ0θ1

hθ(X(je))-y(je)

pour tout de à . Nous calculons donc la somme sur cette différence, puis calculons la moyenne en multipliant la somme par . Jusqu'ici tout va bien. Cela se traduirait par:1 m 1je1m1m

1mΣje=1mhθ(X(je))-y(je)

Mais ce n'est pas ce qui a été suggéré. Au lieu de cela, le cours suggère de prendre le carré de la différence et de le multiplier par . Donc la formule est:12m

12mΣje=1m(hθ(X(je))-y(je))2

Pourquoi donc? Pourquoi utilisons-nous la fonction carrée ici et pourquoi multiplions-nous par au lieu de ? 112m1m

Golo Roden
la source
3
Question connexe à stats.stackexchange.com
user1205197
Consultez également l'explication de Chris McCormick sur goo.gl/VNiUR5
vimdude
parce que c'est une divergence de Bregman
Andrew

Réponses:

41

Votre fonction de perte ne fonctionnerait pas car elle incitait à définir θ1 sur une valeur finie et θ0 à - .

Appelons r(X,y)=1mΣje=1mhθ(X(je))-ylerésidudeh.

Votre objectif est de rendre r plus proche possible de zéro , pas seulement de le minimiser . Une valeur négative élevée est aussi mauvaise qu'une valeur positive élevée.

EDIT: Vous pouvez y remédier en limitant artificiellement l'espace des paramètres Θ (par exemple, vous voulez |θ0|<dix ). Dans ce cas, les paramètres optimaux se situeraient sur certains points de la limite de l’espace paramétrique. Voir https://math.stackexchange.com/q/896388/12467 . Ce n'est pas ce que tu veux.

Pourquoi utilisons-nous la perte carrée

L'erreur au carré oblige h(X) et y à correspondre. Elle est minimisée à vous=v , si possible, et vaut toujours 0 , car c'est un carré du nombre réel vous-v .

|vous-v|fonctionnerait également dans le but ci-dessus, de même que(vous-v)2n , avecn un nombre entier positif. La première estfait utilisé (il est appelé1 perte, vous pouvez aussi venirtravers le2 perte,qui est un autre nom pourerreurcarré).

Alors, pourquoi la perte au carré est-elle meilleure que celles-ci? C'est une question profonde liée au lien entre l' inférence Frequentist et Bayésienne . En bref, l'erreur au carré concerne le bruit gaussien .

Si vos données ne correspondent pas exactement à tous les points, c'est-à-dire que h(X)-y n'est pas nul quel que soit le θ vous choisissez (comme cela se produira toujours dans la pratique), cela peut être dû au bruit . Dans tout système complexe, il existe de nombreuses petites causes indépendantes de la différence entre votre modèle h et la réalité y : erreur de mesure, facteurs environnementaux, etc. Selon le théorème de la limite centrale (CLT), le bruit total serait réparti Normalement , c.-à-d. Distribution gaussienne . Nous voulons choisir le meilleur ajustement θen tenant compte de cette répartition du bruit. Supposons que R=h(X)-Y , la partie de y que votre modèle ne peut pas expliquer, suit la distribution gaussienne N(μ,σ) . Nous utilisons des majuscules parce que nous parlons maintenant de variables aléatoires.

La distribution gaussienne a deux paramètres, moyenne μ=E[R]=1mΣjehθ(X(je))-Y(je))et varianceσ2=E[R2]=1mΣje(hθ(X(je))-Y(je)))2. Voiricipour mieux comprendre ces termes.

  • Considérez μ , c’est l’ erreur systématique de nos mesures. Utilisez h(X)=h(X)-μ pour corriger l’erreur systématique, de sorte que μ=E[R]=0 (exercice pour le lecteur). Rien d'autre à faire ici.

  • σ représente l'erreur aléatoire, également appeléebruit. Une fois que nous avons pris en compte la composante de bruit systématique comme dans le point précédent, le meilleur prédicteur est obtenu lorsqueσ2=1mi(hθ(X(i))Y(i)))2est réduitminimum. En d'autres termes, le meilleur prédicteur est celui qui présente la distribution la plus serrée (la plus petite variance) autour de la valeur prédite, c'est-à-dire la plus petite variance. Minimiser la perte la plus faible est la même chose que minimiser la variance! Cela explique pourquoi la perte de moindre carré fonctionne pour un large éventail de problèmes. Le bruit sous-jacent est très souvent gaussien, à cause du CLT, et minimiser l'erreur au carré s'avère être labonnechose à faire!

Pour prendre en compte simultanément la moyenne et la variance, nous incluons un terme de biais dans notre classificateur (afin de traiter l'erreur systématique μ ), puis nous minimisons la perte en carrés.

Questions de suivi:

  • Perte des moindres carrés = erreur gaussienne. Est-ce que chaque autre fonction de perte correspond également à une certaine distribution de bruit? Oui. Par exemple, la perte 1 (minimisation de la valeur absolue au lieu de l'erreur au carré) correspond à la distribution de Laplace (regardez la formule du PDF dans l'infobox - il s'agit simplement de la gaussienne avec |X-μ| au lieu de (X-μ)2 ). Une perte populaire pour les distributions de probabilité est la divergence KL . -La distribution gaussienne est très motivée par le théorème de la limite centrale, dont nous avons discuté plus tôt. Quand la distribution de Laplace est-elle le bon modèle de bruit? Il y a des circonstances où il se réalise naturellement, mais il est plus communément comme régularisateur pour faire respecter la parcimonie : la 1 perte est le moins convexe parmi toutes les pertes convexes.

    • Comme Jan le mentionne dans les commentaires, le minimiseur des écarts carrés est la moyenne et le minimiseur de la somme des écarts absolus est la médiane . Pourquoi voudrions-nous trouver la médiane des résidus au lieu de la moyenne? Contrairement à la moyenne, la médiane n'est pas ébranlée par une très grande valeur aberrante. Ainsi, la perte 1 est utilisée pour une robustesse accrue. Parfois, une combinaison des deux est utilisée.
  • Existe-t-il des situations dans lesquelles nous minimisons à la fois la moyenne et la variance? Oui. Cherchez le compromis biais-variance . Ici, nous regardons un ensemble de classificateurs hθH et parmi eux demander quel est le meilleur. Si nous demandons quel ensemble de classificateurs est le meilleur pour un problème, minimiser à la fois le biais et la variance devient important. Il s'avère qu'il y a toujours un compromis entre eux et nous utilisons la régularisation pour parvenir à un compromis.

En ce qui concerne le 12 terme

Le 1/2 n'a pas d'importance et en fait, ni le m - ce sont deux constantes. La valeur optimale de θ resterait la même dans les deux cas.

  • L’expression du dégradé devient plus jolie avec le 12 , car le 2 du terme carré s'annule.

    • Lorsque vous écrivez du code ou des algorithmes, nous nous intéressons généralement davantage au dégradé. Il est donc utile de le garder concis. Vous pouvez vérifier les progrès simplement en vérifiant la norme du dégradé. La fonction de perte elle-même est parfois omise du code car elle est utilisée uniquement pour la validation de la réponse finale.
  • Le m est utile si vous résolvez ce problème avec la descente de gradient. Ensuite, votre dégradé devient la moyenne de m termes au lieu d'une somme. Son échelle ne change donc pas lorsque vous ajoutez plus de points de données.

    • J'ai déjà rencontré ce problème auparavant: je teste le code avec un petit nombre de points et tout fonctionne correctement, mais lorsque vous le testez avec l'intégralité du jeu de données, vous constatez une perte de précision et parfois des dépassements / sous-débits, c'est-à-dire que votre dégradé devient nanou inf. Pour éviter cela, normalisez simplement le nombre de points de données.
  • Ces décisions esthétiques sont utilisées ici pour maintenir la cohérence avec les équations futures dans lesquelles vous allez ajouter des termes de régularisation . Si vous incluez le m , le paramètre de régularisation λ ne dépendra pas de la taille du jeu de données m et sera plus interprétable pour tous les problèmes.

Dur
la source
vous avez dit: "lorsque vous prenez le dérivé, l'expression est plus jolie, car le 2 annule le 2 du terme carré". Mais pourquoi voulons-nous prendre son dérivé?
DrGeneral
Nous optimisons généralement la perte en utilisant la descente de gradient, ce qui nécessite de prendre le dérivé. Je n'en ai pas parlé parce que cela devrait être clair dans le contexte de cette question.
Harsh
1
Harsh, pardonne-moi ma naïveté, mais pourquoi ne pas utiliser la valeur absolue au lieu de carré?
Alexander Suraphel
1
L'erreur absolue peut également fonctionner, mais dans ce cas, vous régresserez à la moyenne attendue au lieu de la moyenne. Prenez une petite liste de nombres et voyez en quoi la perte varie en décalant votre estimation (erreur quadratique et erreur absolue)
Jan van der Vegt
@AlexanderSuraphel Désolé pour le retard dans la réponse :) J'ai ajouté une section ci-dessus pour répondre à cette question
Harsh
25

Le coefficient 1/2 est simplement pour plus de commodité; cela rend la dérivée, qui est la fonction en cours d'optimisation, plus jolie. Le 1 / m est plus fondamental; il suggère que nous nous intéressons à la moyenne erreur quadratique. Cela vous permet de faire des comparaisons justes lorsque vous modifiez la taille de l'échantillon et d'éviter tout débordement. Les optimiseurs dits "stochastiques" utilisent un sous-ensemble de l'ensemble de données (m '<m). Lorsque vous introduisez un régularisateur (terme additif à la fonction objectif), l’utilisation du facteur 1 / m vous permet d’utiliser le même coefficient pour le régularisateur quelle que soit la taille de l’échantillon.

Quant à la question de savoir pourquoi le carré et non pas simplement la différence: ne voulez-vous pas que les sous-estimations soient pénalisées de la même manière que les surestimations? La quadrature élimine l'effet du signe de l'erreur. Prendre la valeur absolue (norme L1) le fait aussi, mais sa dérivée n’est pas définie à l’origine, son utilisation nécessite donc plus de sophistication. La norme L1 a ses utilisations, alors gardez-la à l'esprit et demandez peut-être à l'enseignant s'il veut la couvrir.

Emre
la source
4
L2LpL2
6

La mesure d'erreur dans la fonction de perte est une "distance statistique"; contrairement à la compréhension populaire et préliminaire de la distance entre deux vecteurs dans l’espace euclidien. Avec "distance statistique", nous essayons de cartographier la "dis-similarité" entre le modèle estimé et le modèle optimal avec l'espace euclidien.

Il n'y a pas de règle restrictive concernant la formulation de cette "distance statistique", mais si le choix est approprié, une réduction progressive de cette "distance" lors de l'optimisation se traduit par une amélioration progressive de l'estimation du modèle. Par conséquent, le choix de la "distance statistique" ou de la mesure d'erreur est lié à la distribution des données sous-jacentes.

En fait, il existe plusieurs mesures de distance / erreur bien définies pour différentes classes de distributions statistiques. Il est conseillé de sélectionner la mesure d'erreur en fonction de la distribution des données en main. Il se trouve que la distribution gaussienne est omniprésente et que, par conséquent, sa mesure de distance associée, la norme L2 est la mesure d'erreur la plus répandue. Cependant, ce n'est pas une règle et il existe des données du monde réel pour lesquelles une implémentation d'optimisation «efficace» * adopterait une mesure d'erreur différente de celle de la norme L2.

Considérons l'ensemble des divergences de Bregman . La représentation canonique de cette mesure de divergence est la norme L2 (erreur au carré). Elle inclut également l'entropie relative (divergence de Kullback-Liebler), la distance euclidienne généralisée (métrique de Mahalanobis) et la fonction d'Itakura-Saito. Vous pouvez en savoir plus à ce sujet dans cet article sur la divergence fonctionnelle de Bregman et l'estimation bayésienne des distributions .

À emporter: La norme L2 possède un ensemble intéressant de propriétés, ce qui en fait un choix populaire pour la mesure d'erreur (d'autres réponses ici en ont mentionné certaines, suffisantes à la portée de cette question), et l'erreur quadratique sera appropriée. choix la plupart du temps. Néanmoins, lorsque la distribution des données le requiert, il existe d'autres mesures d'erreur possibles, qui dépendent en grande partie de la formulation de la routine d'optimisation.

* La mesure d'erreur «appropriée» rendrait la fonction de perte convexe pour l'optimisation, ce qui est très utile, par opposition à une autre mesure d'erreur où la fonction de perte est non convexe et donc notoirement difficile.

Stardust dynamique
la source
5

Outre les points clés soulevés par d'autres personnes, l'utilisation de l'erreur au carré met davantage l'accent sur l'erreur la plus grande (que se passe-t-il lorsque 1/2 est égal à 3/2?).

Avoir un algorithme qui déplace les erreurs fractionnaires, qui résulterait probablement en une classification correcte ou une très petite différence entre l'estimation et la vérité du sol, s'il est laissé près de zéro, tout en laissant les erreurs majeures sous forme d'erreurs importantes ou de erreurs de classification, n'est pas une caractéristique souhaitable de un algorithme.

L'utilisation de l'erreur quadratique utilise l'erreur en tant que poids d'importance implicite pour ajuster la prédiction.

bobv
la source
oui, quelle est l'erreur arbitraire
jeza
3

Dans votre formulation, vous essayez d’obtenir l’écart moyen de votre approximation par rapport aux données observées.

Si la valeur moyenne de votre approximation est proche ou égale à la valeur moyenne des données observées (ce qui est souhaitable et se produit souvent avec de nombreux schémas d'approximation), le résultat de votre formulation sera nul ou négligeable, car les erreurs positives compensent par des erreurs négatives. les erreurs. Cela pourrait conduire à la conclusion que votre approximation est excellente pour chaque échantillon observé, alors que ce n'est peut-être pas le cas. C'est pourquoi vous utilisez le carré de l'erreur à chaque échantillon et vous les additionnez (à votre tour, chaque erreur est positive).

Bien sûr, ceci n’est qu’une solution possible, car vous auriez pu utiliser la norme L1 (valeur absolue de l’erreur pour chaque échantillon) ou bien d’autres, au lieu de la norme L2.

W641
la source