Erreur absolue moyenne OU erreur quadratique moyenne?

59

Pourquoi utiliser l'erreur quadratique moyenne (RMSE) au lieu de l'erreur absolue moyenne (MAE)?

salut

J'ai étudié l'erreur générée dans un calcul - j'avais initialement calculé l'erreur en tant qu'erreur quadratique moyenne normalisée racine.

En regardant de plus près, je vois les effets de la quadrature de l'erreur qui donne plus de poids aux erreurs les plus grandes que les plus petites, biaisant l'estimation d'erreur vers la valeur aberrante. Ceci est assez évident rétrospectivement.

Ma question est donc la suivante: dans quel cas l’erreur racine moyenne au carré serait-elle une mesure plus appropriée de l’erreur que l’erreur absolue moyenne? Ce dernier me semble plus approprié ou me manque quelque chose?

Pour illustrer cela, j'ai joint un exemple ci-dessous:

  • Le nuage de points montre deux variables avec une bonne corrélation,

  • les deux histogrammes à droite indiquent l'erreur entre Y (observé) et Y (prévu) à l'aide de RMSE normalisé (haut) et de MAE (bas).

entrez la description de l'image ici

Il n'y a pas de valeurs aberrantes significatives dans ces données et MAE génère une erreur inférieure à celle de RMSE. Y a-t-il une raison, en dehors du fait que MAE soit préférable, d'utiliser une mesure d'erreur par rapport à l'autre?

utilisateur1665220
la source
9
Étant donné que RMSE et MAE sont deux mesures d'erreur différentes, une comparaison numérique entre elles (ce qui permet d'affirmer que MAE est "inférieur" à RMSE) ne semble pas avoir de sens. Cette ligne doit avoir été adaptée selon un critère: ce critère, quel qu’il soit, doit être la mesure pertinente de l’erreur.
whuber
la ligne a été ajustée à l'aide des moindres carrés - mais la photo n'est qu'un exemple montrant la différence d'erreur mesurée. Mon vrai problème est d'utiliser un optimiseur pour résoudre quatre paramètres de fonction avec une mesure d'erreur minimisée, MAE ou RMSE.
user1665220
Merci pour la clarification. Mais quelle erreur t'intéresse, précisément? L'erreur dans l' ajustement ou les erreurs dans les estimations de paramètres ?
whuber
1
L'erreur dans l'ajustement. J'ai quelques échantillons de laboratoire qui donnent y, que je veux prédire à l'aide d'une fonction. J'optimise la fonction pour 4 exposants en minimisant l'erreur pour l'ajustement entre les données observées et prédites.
user1665220
Dans RMSE, nous considérons la racine du nombre d'éléments (n). C'est la racine de MSE divisée par la racine de n. La racine de MSE est ok, mais plutôt que de diviser par n, elle est divisée par la racine de n pour recevoir le RMSE. Je pense que ce serait une politique. La réalité serait (racine de MSE) / n. De cette façon, MAE est meilleur.

Réponses:

58

Cela dépend de votre fonction de perte. Dans de nombreuses circonstances, il est logique d’accorder plus de poids aux points les plus éloignés de la moyenne - c’est-à-dire que 10 points de moins est deux fois plus mauvais que 5 points. Dans ce cas, la RMSE est une mesure plus appropriée de l’erreur.

Si le fait d'avoir dix heures de retard équivaut à deux fois moins que d'avoir cinq ans, le MAE est plus approprié.

Dans tous les cas, il n’a aucun sens de comparer RMSE et MAE l’un à l’autre, comme vous le feriez dans l’avant-dernière phrase ("MAE donne une erreur inférieure à RMSE"). MAE ne sera jamais supérieur à RMSE en raison de la manière dont ils sont calculés. Ils n'ont de sens que par rapport à la même mesure d'erreur: vous pouvez comparer RMSE pour la méthode 1 à RMSE pour la méthode 2 ou MAE pour la méthode 1 à MAE pour la méthode 2, mais vous ne pouvez pas dire que MAE est meilleur que RMSE pour Méthode. 1 parce que c'est plus petit.

Jonathan Christensen
la source
Je comprends que MAE ne sera jamais plus élevé que RMSE. J'ai utilisé à la fois des estimations d'erreur et une différence entre les valeurs pour donner une indication de l'impact des valeurs aberrantes. C'est-à-dire que lorsqu'ils sont proches, quand ils sont plus éloignés, j'étudie pour voir ce qui se passe. En fin de compte, je veux prédire les paramètres qui conviennent le mieux aux données. Par exemple, 9% d’erreur sonne mieux que 12% - je voulais simplement être sûr de choisir le bon pour la bonne raison. Cordialement pour vos conseils
user1665220
La principale différence entre RMSE (par conséquent MSE) et MAE ne concerne pas la façon dont ils pondèrent les erreurs. Vous pouvez utiliser une fonction de poids si nécessaire. La principale différence est que MSE est liée à l'espace L2 (MAE n'a rien de tel). Ainsi, par exemple, MSE pourrait mesurer la quantité d'énergie nécessaire pour un contrôle en boucle fermée lorsque E est le signal de retour (Rappelez-vous que le carré moyen d'un signal, Error dans ce cas, est proportionnel à son énergie). Aussi beaucoup de mathématiques et par conséquent des algorithmes comme Marquardt-Levenberg fonctionnent dans cet espace. En termes simples, ils utilisent la MSE comme fonction objective.
eulerleibniz
17

Voici une autre situation lorsque vous souhaitez utiliser (R) MSE au lieu de MAE: lorsque la distribution conditionnelle de vos observations est asymétrique et que vous souhaitez un ajustement non biaisé. Le (R) MSE est minimisé par la moyenne conditionnelle , le MAE par la médiane conditionnelle . Donc, si vous minimisez le MAE, l'ajustement sera plus proche de la médiane et biaisé.

Bien sûr, tout dépend de votre fonction de perte.

Le même problème se produit si vous utilisez MAE ou (R) MSE pour évaluer des prédictions ou des prévisions . Par exemple, les données de faible volume des ventes ont généralement une distribution asymétrique. Si vous optimisez le MAE, vous serez peut-être surpris de constater que la prévision optimale du MAE est une prévision zéro plat.

Voici une petite présentation couvrant ce sujet , et voici un commentaire invité récent sur le concours de prévision M4 où j'ai expliqué cet effet .

S. Kolassa - Réintégrer Monica
la source
+1 L’idée de comparer les distributions est excellente, mais… une métrique comme celle que vous présentez ne pourrait-elle pas échouer lamentablement dans quelque chose comme N = 1e3; set.seed(1); y = rpois(N, lambda=1); yhat = c(y[2:N],0)? La "différence" de densités prédictives serait minimale mais la valeur réelle yhatserait inutile. Certes, c'est un cas extrême. (Il se peut que je manque quelque chose d'évident, excusez-moi d'avance - je n'ai pas accès au document, seulement à la présentation.)
us11852 dit Réintégrer Monic
@ usεr11852: oui, votre séquence de prévisions ponctuelles serait inutile et, en particulier, bien pire qu'une prévision plate (qui est à la fois la moyenne et la médiane, c'est donc optimal pour le MAE et le MSE) . Une prévision de densité n'est pas simplement une séquence de prévisions ponctuelles! C'est une prédiction complète de la densité pour chaque point temporel futur . Nous prédirions donc un Pois (1) pour le premier point, pour le deuxième, pour le troisième, etc.y^=1
S. Kolassa - Réintégration de Monica
Merci beaucoup pour les clarifications; Je peux mieux conceptualiser la présentation maintenant. (Hmm ... j'ai besoin de mettre la main sur votre papier après tout. :))
usεr11852 dit Rétablir Monic
@ usεr11852: n'hésitez pas à me contacter par e-mail ( recherchez l'adresse ici ) - si votre courrier ne se retrouve pas dans mon filtre anti-spam, je vous enverrai volontiers ce document.
S. Kolassa - Réintégrer Monica
@ usεr11852 Je t'ai complètement perdu après "comme N =" qu'est-ce que c'est?
Sak
5

entrez la description de l'image ici

Le RMSE est une manière plus naturelle de décrire la perte de distance euclidienne. Par conséquent, si vous tracez le graphique en 3D, la perte est en forme de cône, comme vous pouvez le voir ci-dessus en vert. Ceci s'applique également aux dimensions supérieures, bien qu'il soit plus difficile de le visualiser.

MAE peut être considéré comme une distance d'une ville à l'autre. Il n’est pas vraiment naturel de mesurer les pertes, comme vous pouvez le voir sur le graphique en bleu.

dan dan
la source