Dans le chapitre "Regression to the Mean" de "Thinking, Fast and Slow" de Daniel Kahneman, un exemple est donné et le lecteur est invité à prévoir les ventes des magasins individuels compte tenu des prévisions de ventes globales et des chiffres de ventes de l'année précédente . Par exemple (l'exemple du livre a 4 magasins, j'utilise 2 ici pour plus de simplicité):
Store 2011 2012
1 100 ?
2 500 ?
Total 600 660
Les prévisions naïves seraient de 110 et 550 pour les magasins 1 et 2, 10% d'augmentation pour chacun. Cependant, l'auteur affirme que cette approche naïve est erronée. Il est plus probable que le magasin le moins performant augmente de plus de 10% et le magasin le plus performant augmente (ou même diminue) de moins de 10%. Donc peut-être une prévision de 115 (augmentation de 15%) et 535 (augmentation de 7%) serait "plus correcte" que la prévision naïve.
Ce que je ne comprends pas, c'est comment conclure que les ventes de 100 magasins 1 sont nécessairement les magasins les moins performants? Peut-être, en raison des différences d'emplacement, les véritables moyennes chronologiques des magasins 1 et 2 sont 10 et 550, et le magasin 1 a eu une super année en 2011, et le magasin 2 a eu une année désastreuse en 2011. Alors cela n'aurait-il pas de sens prévoir une diminution pour le magasin 1 et une augmentation pour le magasin 2?
Je sais que les informations sur les séries chronologiques n'ont pas été fournies dans l'exemple d'origine, mais j'ai l'impression que la "régression vers la moyenne" fait référence à la moyenne transversale et, par conséquent, les informations sur les séries temporelles n'ont pas d'importance. Qu'est-ce que je comprends mal?
Avec si peu de points de données, la réponse sera presque entièrement dictée par le précédent (ou équivalent implicite). Si l'auteur a déjà vu beaucoup de données de ce type auparavant, il peut fort bien avoir des raisons de penser que sa réponse est plus susceptible d'être correcte, compte tenu de ses observations passées. Je pense que c'est un peu exagéré de suggérer que c'est un exemple de régression vers la moyenne, du moins pas sans préciser quelques informations supplémentaires. Par exemple, les magasins sont-ils situés dans des endroits comparables ou non? S'ils le sont et qu'il n'y a pas d'autres différences évidentes entre les magasins, alors nous pouvons nous sentir justifiés de penser qu'ils font partie d'une population comparable et nous pouvons penser à une régression vers la moyenne. S'il existe des différences évidentes entre les magasins qui pourraient expliquer une différence systématique des ventes, il devient alors moins judicieux de le faire.
la source
Je pense qu'une meilleure illustration (hypothétique) pourrait ressembler à ceci:
Sauf pour des raisons systématiques, nous nous attendrions à ce que le moins performant (de causes aléatoires) ne le soit plus. Et donc aussi pour le meilleur interprète.
Par conséquent, avec une croissance moyenne de 10%, je m'attendrais à ce que # 1 fasse mieux que 110 et # 6 fasse pire que 330.
Je pense que la partie incertaine est les hypothèses. Il est très rare à mon humble avis que le retardataire de la meute ne soit vraiment qu'un hasard aléatoire et non une hétérogénéité sous-jacente.
la source