Pourquoi utiliser l'erreur quadratique moyenne (RMSE) au lieu de l'erreur absolue moyenne (MAE)?
salut
J'ai étudié l'erreur générée dans un calcul - j'avais initialement calculé l'erreur en tant qu'erreur quadratique moyenne normalisée racine.
En regardant de plus près, je vois les effets de la quadrature de l'erreur qui donne plus de poids aux erreurs les plus grandes que les plus petites, biaisant l'estimation d'erreur vers la valeur aberrante. Ceci est assez évident rétrospectivement.
Ma question est donc la suivante: dans quel cas l’erreur racine moyenne au carré serait-elle une mesure plus appropriée de l’erreur que l’erreur absolue moyenne? Ce dernier me semble plus approprié ou me manque quelque chose?
Pour illustrer cela, j'ai joint un exemple ci-dessous:
Le nuage de points montre deux variables avec une bonne corrélation,
les deux histogrammes à droite indiquent l'erreur entre Y (observé) et Y (prévu) à l'aide de RMSE normalisé (haut) et de MAE (bas).
Il n'y a pas de valeurs aberrantes significatives dans ces données et MAE génère une erreur inférieure à celle de RMSE. Y a-t-il une raison, en dehors du fait que MAE soit préférable, d'utiliser une mesure d'erreur par rapport à l'autre?
la source
Réponses:
Cela dépend de votre fonction de perte. Dans de nombreuses circonstances, il est logique d’accorder plus de poids aux points les plus éloignés de la moyenne - c’est-à-dire que 10 points de moins est deux fois plus mauvais que 5 points. Dans ce cas, la RMSE est une mesure plus appropriée de l’erreur.
Si le fait d'avoir dix heures de retard équivaut à deux fois moins que d'avoir cinq ans, le MAE est plus approprié.
Dans tous les cas, il n’a aucun sens de comparer RMSE et MAE l’un à l’autre, comme vous le feriez dans l’avant-dernière phrase ("MAE donne une erreur inférieure à RMSE"). MAE ne sera jamais supérieur à RMSE en raison de la manière dont ils sont calculés. Ils n'ont de sens que par rapport à la même mesure d'erreur: vous pouvez comparer RMSE pour la méthode 1 à RMSE pour la méthode 2 ou MAE pour la méthode 1 à MAE pour la méthode 2, mais vous ne pouvez pas dire que MAE est meilleur que RMSE pour Méthode. 1 parce que c'est plus petit.
la source
Voici une autre situation lorsque vous souhaitez utiliser (R) MSE au lieu de MAE: lorsque la distribution conditionnelle de vos observations est asymétrique et que vous souhaitez un ajustement non biaisé. Le (R) MSE est minimisé par la moyenne conditionnelle , le MAE par la médiane conditionnelle . Donc, si vous minimisez le MAE, l'ajustement sera plus proche de la médiane et biaisé.
Bien sûr, tout dépend de votre fonction de perte.
Le même problème se produit si vous utilisez MAE ou (R) MSE pour évaluer des prédictions ou des prévisions . Par exemple, les données de faible volume des ventes ont généralement une distribution asymétrique. Si vous optimisez le MAE, vous serez peut-être surpris de constater que la prévision optimale du MAE est une prévision zéro plat.
Voici une petite présentation couvrant ce sujet , et voici un commentaire invité récent sur le concours de prévision M4 où j'ai expliqué cet effet .
la source
N = 1e3; set.seed(1); y = rpois(N, lambda=1); yhat = c(y[2:N],0)
? La "différence" de densités prédictives serait minimale mais la valeur réelleyhat
serait inutile. Certes, c'est un cas extrême. (Il se peut que je manque quelque chose d'évident, excusez-moi d'avance - je n'ai pas accès au document, seulement à la présentation.)Le RMSE est une manière plus naturelle de décrire la perte de distance euclidienne. Par conséquent, si vous tracez le graphique en 3D, la perte est en forme de cône, comme vous pouvez le voir ci-dessus en vert. Ceci s'applique également aux dimensions supérieures, bien qu'il soit plus difficile de le visualiser.
MAE peut être considéré comme une distance d'une ville à l'autre. Il n’est pas vraiment naturel de mesurer les pertes, comme vous pouvez le voir sur le graphique en bleu.
la source