J'ai un énorme problème avec un problème conceptuel que j'ai trouvé.
Disons qu'une entreprise a une distribution très asymétrique. Quelque chose de similaire à une exponentielle ou log-normale, mais plus extrême. Imaginez maintenant que la distribution est si asymétrique que la moyenne de la distribution est supérieure au 99% de centile de la distribution. (Aka 1-2 valeurs extrêmement élevées ont fait que la moyenne était extrêmement élevée par rapport au reste de la distribution).
Par définition, si cette distribution était utilisée pour prévoir une valeur future (c'est-à-dire un échantillon aléatoire de la distribution), serait-il vrai que la moyenne ne serait pas dans l'intervalle de prédiction à 95%?
Dans mon cerveau, un intervalle de prédiction de 95% est une plage entre laquelle 95% de toutes les valeurs futures se situeront. Pour toute distribution, cela devrait correspondre exactement au percentile 0,025 sur la borne inférieure et au percentile 0,975 sur la borne supérieure ... Si la moyenne est supérieure au percentile 0,975, alors la moyenne ne se situerait pas dans les '95% intervalle de prédiction ».
Est-ce que je pense mal à cela? Il semble étrange de rapporter une prévision
- Valeur moyenne prévue: 6 000 0000
- Intervalle de prédiction à 95%: [400 500].
la source
Réponses:
Non, un intervalle de prédiction ne doit pas nécessairement contenir la moyenne. Je pense qu'une partie de votre confusion pourrait être de mélanger les intervalles de prédiction et les intervalles de confiance. Alors que le but d'un intervalle de prédiction est de contenir avec une certaine certitude les valeurs futures de la variable aléatoire, le but d'un intervalle de confiance est de contenir la vraie moyenne de distribution.
Comme vous l'avez mentionné dans les distributions très asymétriques, ces idées semblent en contradiction. L'important est de reconnaître la valeur de chacune des statistiques fournies.
La valeur prédictive de la moyenne est:
1) Cumulatif: à mesure que de nouveaux échantillons arrivent, leur moyenne tendra vers la vraie moyenne. Donc, si la valeur cumulative est intéressante (par exemple, si vous jouez et que vous traitez avec des gains ou des pertes, vous êtes intéressé par les effets cumulatifs), la moyenne est très utile.
2) Minimise les résidus au carré: Bien que les résidus au carré soient une quantité d'intérêt quelque peu arbitraire, il vaut la peine de savoir ce que votre prédiction minimise.
Si toutefois votre objectif est de minimiser l'erreur absolue dans vos prévisions, la valeur moyenne prévue de 6 000 000 n'est pas celle avec laquelle j'irais.
la source
Considérons la distribution des retours possibles dans le paradoxe de Saint-Pétersbourg:
Prob (1) = 1/2
Prob (2) = 1/4
Prob (4) = 1/8 ... Prob (2 ^ n) = 1/2 ^ (n + 1)
La moyenne diverge et est en dehors de tout intervalle de prédiction raisonnable. (La médiane est 1 dans ce cas, mais je ne sais pas ce que j'utiliserais pour ma prévision ponctuelle. Peut-être que Stephan Kolassa, voir ci-dessus, a une suggestion.)
Il y a une autre complication: disons que vous voulez un intervalle de prédiction de 95% pour une distribution (autre que celle que je viens de mentionner). Passez-vous de la tuile 2,5% à la tuile 97,5% ou du 0 au 95e ou du 5e au 100e ou ....? La réponse dépend probablement de la raison pour laquelle vous posez la question.
la source