Il est utile de prendre du recul et d'oublier l'aspect prévisionnel pendant une minute. Considérons n'importe quelle distribution et supposons que nous souhaitons la résumer en utilisant un seul nombre.F
Vous apprenez très tôt dans vos cours de statistiques que l'utilisation de l'attente de comme un résumé de nombre unique minimisera l'erreur quadratique attendue.F
La question est maintenant: pourquoi l'utilisation de la médiane de minimise-t-elle l' erreur absolue attendue ?F
Pour cela, je recommande souvent «Visualisation de la médiane comme emplacement d'écart minimum» par Hanley et al. (2001, The American Statistician ) . Ils ont mis en place une petite applet avec leur papier, ce qui malheureusement ne fonctionne probablement plus avec les navigateurs modernes, mais nous pouvons suivre la logique du papier.
Supposons que vous vous teniez devant une rangée d'ascenseurs. Ils peuvent être disposés de façon égale, ou certaines distances entre les portes d'ascenseur peuvent être plus grandes que d'autres (par exemple, certains ascenseurs peuvent être hors service). Devant quel ascenseur si vous tenir à l'avoir attendu un minimum de marche lorsque l' un des ascenseurs n'arrivent? Notez que cette marche attendue joue le rôle de l'erreur absolue attendue!
Supposons que vous ayez trois ascenseurs A, B et C.
- Si vous attendez devant A, vous devrez peut-être marcher de A à B (si B arrive), ou de A à C (si C arrive) - en passant B!
- Si vous attendez devant B, vous devez marcher de B vers A (si A arrive) ou de B vers C (si C arrive).
- Si vous attendez devant C, vous devez marcher de C à A (si A arrive) - en passant B - ou de C à B (si B arrive).
Notez que depuis la première et la dernière position d'attente, il y a une distance - AB dans la première, BC dans la dernière position - que vous devez marcher dans plusieurs cas d'ascenseurs arrivant. Par conséquent, votre meilleur pari est de vous tenir juste en face de l'ascenseur du milieu, quelle que soit la disposition des trois ascenseurs.
Voici la figure 1 de Hanley et al.:
Cela se généralise facilement à plus de trois ascenseurs. Ou aux ascenseurs avec différentes chances d'arriver en premier. Ou bien à d'innombrables ascenseurs. Nous pouvons donc appliquer cette logique à toutes les distributions discrètes, puis passer à la limite pour arriver à des distributions continues.
F^
F^λ ≤ ln2
Ainsi, si vous pensez que votre distribution prédictive est (ou devrait être) asymétrique, comme dans les deux cas ci-dessus, alors si vous souhaitez obtenir des prévisions d'anticipation non biaisées, utilisez la rmse . Si la distribution peut être supposée symétrique (généralement pour les séries à volume élevé), alors la médiane et la moyenne coïncident, et l'utilisation du mae vous guidera également vers des prévisions non biaisées - et le MAE est plus facile à comprendre.
De même, la minimisation de la carte peut conduire à des prévisions biaisées, même pour des distributions symétriques. Cette réponse précédente contient un exemple simulé avec une série strictement positive distribuée asymétriquement (distribuée lognormalement) qui peut être significativement prévue par trois prévisions ponctuelles différentes, selon que nous voulons minimiser le MSE, le MAE ou le MAPE.