Régression vers le casse-tête moyen

9

Dans le chapitre "Regression to the Mean" de "Thinking, Fast and Slow" de Daniel Kahneman, un exemple est donné et le lecteur est invité à prévoir les ventes des magasins individuels compte tenu des prévisions de ventes globales et des chiffres de ventes de l'année précédente . Par exemple (l'exemple du livre a 4 magasins, j'utilise 2 ici pour plus de simplicité):

Store    2011    2012
1        100      ?
2        500      ?
Total    600     660

Les prévisions naïves seraient de 110 et 550 pour les magasins 1 et 2, 10% d'augmentation pour chacun. Cependant, l'auteur affirme que cette approche naïve est erronée. Il est plus probable que le magasin le moins performant augmente de plus de 10% et le magasin le plus performant augmente (ou même diminue) de moins de 10%. Donc peut-être une prévision de 115 (augmentation de 15%) et 535 (augmentation de 7%) serait "plus correcte" que la prévision naïve.

Ce que je ne comprends pas, c'est comment conclure que les ventes de 100 magasins 1 sont nécessairement les magasins les moins performants? Peut-être, en raison des différences d'emplacement, les véritables moyennes chronologiques des magasins 1 et 2 sont 10 et 550, et le magasin 1 a eu une super année en 2011, et le magasin 2 a eu une année désastreuse en 2011. Alors cela n'aurait-il pas de sens prévoir une diminution pour le magasin 1 et une augmentation pour le magasin 2?

Je sais que les informations sur les séries chronologiques n'ont pas été fournies dans l'exemple d'origine, mais j'ai l'impression que la "régression vers la moyenne" fait référence à la moyenne transversale et, par conséquent, les informations sur les séries temporelles n'ont pas d'importance. Qu'est-ce que je comprends mal?


la source

Réponses:

8

Il se trouve que je lis ce livre. Vous n'avez pas correctement transcrit les informations clés. Il indique que «tous les magasins sont de taille et de sélection de marchandises similaires, mais leurs ventes diffèrent en raison de l'emplacement, de la concurrence et de facteurs aléatoires». C'est la clé, surtout ce dernier morceau. Des facteurs aléatoires sont nécessaires pour que la régression vers la moyenne se produise (si les ventes augmentaient d'un montant fixe, alors le gain de 10% également réparti entre les magasins serait correct).

Peter Flom
la source
2
Êtes-vous en train de dire que l'hypothèse «tous les magasins sont similaires» implique que leurs moyennes de séries chronologiques sont les mêmes? Sinon, deux magasins identiques peuvent toujours avoir des moyens très différents en raison de leur emplacement.
1
J'admets que ce n'est pas la meilleure formulation d'un problème, mais c'est beaucoup plus clair que ce que vous aviez dans votre question initiale.
Peter Flom
2

Avec si peu de points de données, la réponse sera presque entièrement dictée par le précédent (ou équivalent implicite). Si l'auteur a déjà vu beaucoup de données de ce type auparavant, il peut fort bien avoir des raisons de penser que sa réponse est plus susceptible d'être correcte, compte tenu de ses observations passées. Je pense que c'est un peu exagéré de suggérer que c'est un exemple de régression vers la moyenne, du moins pas sans préciser quelques informations supplémentaires. Par exemple, les magasins sont-ils situés dans des endroits comparables ou non? S'ils le sont et qu'il n'y a pas d'autres différences évidentes entre les magasins, alors nous pouvons nous sentir justifiés de penser qu'ils font partie d'une population comparable et nous pouvons penser à une régression vers la moyenne. S'il existe des différences évidentes entre les magasins qui pourraient expliquer une différence systématique des ventes, il devient alors moins judicieux de le faire.

Bogdanovist
la source
0

Je pense qu'une meilleure illustration (hypothétique) pourrait ressembler à ceci:

Store    2011    2012
1        100      ?
2        180      ?
3        190      ?
4        210      ?
5        235      ?
6        300      ?

Sauf pour des raisons systématiques, nous nous attendrions à ce que le moins performant (de causes aléatoires) ne le soit plus. Et donc aussi pour le meilleur interprète.

Par conséquent, avec une croissance moyenne de 10%, je m'attendrais à ce que # 1 fasse mieux que 110 et # 6 fasse pire que 330.

Je pense que la partie incertaine est les hypothèses. Il est très rare à mon humble avis que le retardataire de la meute ne soit vraiment qu'un hasard aléatoire et non une hétérogénéité sous-jacente.

curious_cat
la source