Pourquoi la minimisation du MAE conduit-elle à prévoir la médiane et non la moyenne?

20

Extrait du manuel Forecasting: Principles and Practice de Rob J Hyndman et George Athanasopoulos , en particulier la section sur la mesure de la précision :

Une méthode de prévision qui minimise le MAE conduira à des prévisions de la médiane, tandis que la minimisation du RMSE conduira à des prévisions de la moyenne

Quelqu'un peut-il expliquer de façon intuitive pourquoi la minimisation du MAE conduit à prévoir la médiane et non la moyenne? Et qu'est-ce que cela signifie dans la pratique?

J'ai demandé à un client: "qu'est-ce qui est plus important pour vous de rendre les prévisions moyennes plus précises ou d'éviter des prévisions très inexactes?". Il a dit que rendre les prévisions moyennes plus précises ont une priorité plus élevée. Donc, dans ce cas, dois-je utiliser MAE ou RMSE? Avant de lire cette citation, je pensais que MAE serait mieux pour une telle condition. Et maintenant je doute.

Brans Ds
la source

Réponses:

17

Il est utile de prendre du recul et d'oublier l'aspect prévisionnel pendant une minute. Considérons n'importe quelle distribution et supposons que nous souhaitons la résumer en utilisant un seul nombre.F

Vous apprenez très tôt dans vos cours de statistiques que l'utilisation de l'attente de comme un résumé de nombre unique minimisera l'erreur quadratique attendue.F

La question est maintenant: pourquoi l'utilisation de la médiane de minimise-t-elle l' erreur absolue attendue ?F

Pour cela, je recommande souvent «Visualisation de la médiane comme emplacement d'écart minimum» par Hanley et al. (2001, The American Statistician ) . Ils ont mis en place une petite applet avec leur papier, ce qui malheureusement ne fonctionne probablement plus avec les navigateurs modernes, mais nous pouvons suivre la logique du papier.

Supposons que vous vous teniez devant une rangée d'ascenseurs. Ils peuvent être disposés de façon égale, ou certaines distances entre les portes d'ascenseur peuvent être plus grandes que d'autres (par exemple, certains ascenseurs peuvent être hors service). Devant quel ascenseur si vous tenir à l'avoir attendu un minimum de marche lorsque l' un des ascenseurs n'arrivent? Notez que cette marche attendue joue le rôle de l'erreur absolue attendue!

Supposons que vous ayez trois ascenseurs A, B et C.

  • Si vous attendez devant A, vous devrez peut-être marcher de A à B (si B arrive), ou de A à C (si C arrive) - en passant B!
  • Si vous attendez devant B, vous devez marcher de B vers A (si A arrive) ou de B vers C (si C arrive).
  • Si vous attendez devant C, vous devez marcher de C à A (si A arrive) - en passant B - ou de C à B (si B arrive).

Notez que depuis la première et la dernière position d'attente, il y a une distance - AB dans la première, BC dans la dernière position - que vous devez marcher dans plusieurs cas d'ascenseurs arrivant. Par conséquent, votre meilleur pari est de vous tenir juste en face de l'ascenseur du milieu, quelle que soit la disposition des trois ascenseurs.

Voici la figure 1 de Hanley et al.:

Hanley et al., Figure 1

Cela se généralise facilement à plus de trois ascenseurs. Ou aux ascenseurs avec différentes chances d'arriver en premier. Ou bien à d'innombrables ascenseurs. Nous pouvons donc appliquer cette logique à toutes les distributions discrètes, puis passer à la limite pour arriver à des distributions continues.

F^

F^λln2

Ainsi, si vous pensez que votre distribution prédictive est (ou devrait être) asymétrique, comme dans les deux cas ci-dessus, alors si vous souhaitez obtenir des prévisions d'anticipation non biaisées, utilisez la . Si la distribution peut être supposée symétrique (généralement pour les séries à volume élevé), alors la médiane et la moyenne coïncident, et l'utilisation du vous guidera également vers des prévisions non biaisées - et le MAE est plus facile à comprendre.

De même, la minimisation de la peut conduire à des prévisions biaisées, même pour des distributions symétriques. Cette réponse précédente contient un exemple simulé avec une série strictement positive distribuée asymétriquement (distribuée lognormalement) qui peut être significativement prévue par trois prévisions ponctuelles différentes, selon que nous voulons minimiser le MSE, le MAE ou le MAPE.

S. Kolassa - Rétablir Monica
la source
9

La réponse de Stephan vous donne une explication intuitive de la raison pour laquelle la minimisation de l'erreur moyenne absolue vous donne la médiane. Maintenant, pour savoir lequel des MSE, MAE ou MAPE utiliser:

Le MAE est robuste , ce qui signifie qu'il est moins sensible aux valeurs aberrantes. Imaginez une série avec une erreur un million de fois supérieure à ce qu'elle devrait être. Sur le MSE, il tirera la prévision un million / N fois (où N est le nombre de points), tandis que le MAE ne sera tiré que pour 1 unité.

Malheureusement, le MAE n'est pas unique , il peut donc présenter une sorte de comportement schizophrénique.

Donc, ma recommandation est de faire d'abord un MSE, puis utilise les paramètres MSE pour démarrer la régression MAE.

Dans tous les cas, comparez les deux prévisions: si elles sont très différentes, il y a quelque chose de malodorant dans vos données.

entrez la description de l'image icientrez la description de l'image ici

AlainD
la source