Les chercheurs précédents n'ont-ils pas détecté la main chaude simplement en raison d'une erreur statistique?

11

De nombreux fans / joueurs de basket-ball croient que, après avoir fait plusieurs tirs consécutifs, le coup suivant est plus susceptible d'entrer. C'est ce qu'on appelle parfois la main chaude.

À partir (je pense) de Gilovich, Mallone et Tversky (1985) , il a été "démontré" qu'il s'agissait en fait d'une erreur. Même si plusieurs tirs consécutifs ont été effectués, le prochain coup n'est pas plus susceptible d'entrer que votre pourcentage de prise de vue moyen ne le dicterait.

Miller et Sanjurjo (2015) soutiennent que la main chaude existe en fait et que les chercheurs précédents étaient tout simplement tombés en proie à une erreur statistique assez basique. Leur argument est quelque chose comme ceci:

Lancez une pièce quatre fois. Calculez la probabilité que H suive H.Pour donner quelques exemples: HHTT aurait une probabilité 1/2, HTHT aurait une probabilité 0/2, TTHH aurait une probabilité 0/1 1/1, et TTTT et TTTH seraient tous deux NA

La punchline de Miller et Sanjurjo est que la valeur attendue de cette probabilité n'est pas 0,5, mais ≈0,4. Et l'erreur commise par les chercheurs précédents était de supposer à tort que la valeur attendue de cette probabilité est de 0,5. Donc, si, par exemple, ces chercheurs précédents ont mené l'expérience de retournement de pièces ci-dessus et trouvé la probabilité moyenne de 0,497, ils ont conclu à tort qu'il n'y avait aucune preuve d'une main chaude (pas significativement différente de 0,5), alors qu'en fait il y avait très preuve forte d'une main chaude (significativement différente de 0,4).

Ma question est la suivante: Miller et Sanjurjo ont-ils raison de dire que les chercheurs précédents n'ont pas détecté la main chaude simplement à cause de cette erreur? Je n'ai parcouru qu'un ou deux articles à ce sujet, je voulais donc obtenir une confirmation de quelqu'un ici qui pourrait mieux connaître cette littérature. Cela semble être une erreur étonnamment stupide d'avoir persisté pendant trois décennies ou plus.

Kenny LJ
la source
3
C'est une question dangereuse pour ce site dans le sens où elle est assez difficile à évaluer, surtout pour les étrangers. Et c'est ainsi que nous «déterminons» les meilleures réponses, par vote majoritaire. Assurez-vous de lire toutes les réponses, et votez uniquement celles qui semblent correctes après avoir toutes lu, et votez vers le bas celles qui vous laissent insatisfait / suspect.
FooBar
1
En effet, la bonne réponse peut être contre-intuitive. Si un tel site comme celui-ci existait il y a 60 ans, je ne pense pas que la bonne réponse au problème de Monty Hall - qui a des propriétés similaires - viendrait en tête grâce au vote majoritaire.
FooBar
@FooBar, pour ajouter à votre point, il y a deux questions compliquées qui se posent à la fois ici: (1) "Quel est l'effet mathématique dont Miller et Sanjuro discutent" --- ce n'est pas la question que Kenny LJ a posée, mais c'est un bonne question car il faut beaucoup de lecture pour comprendre et est relativement objectif. Alors (2) est "Est-ce que cela invalide les recherches antérieures", qui semble subjectif et basé sur l'opinion ....
usul
@usul: Dans certains cas en économie, cette deuxième question ("Est-ce que cela invalide les recherches antérieures?") est en effet plus controversée et fondée sur l'opinion - par exemple, la controverse sur l'article de Reinhart et Rogoff (2010). Mais je pense que dans ce cas, nous avons un problème mathématique clairement défini. Et comme j'ai essayé de le montrer dans ma réponse ci-dessous (que je viens de réécrire pour plus de clarté et de brièveté), Miller et Sanjurjo (2015) parviennent effectivement à invalider les conclusions de Gilovich, Mallone et Tversky (1985).
Kenny LJ
@KennyLJ, ils ont montré que l'un des éléments de preuve du document de 1985 n'est pas valide. Il s'agit d'une question très différente de celle de montrer que la conclusion n'est pas valide, par exemple de montrer qu'il existe bel et bien un effet de main chaude.
usul

Réponses:

6

(Cette réponse a été entièrement réécrite pour plus de clarté et de lisibilité en juillet 2017.)

Lancez une pièce 100 fois de suite.

Examinez le flip immédiatement après une séquence de trois queues. Soit p ( H | 3 T ) soit la proportion de pièce de monnaie se retourne après chaque série de trois queues dans une rangée qui sont têtes. De même, soit p ( H | 3 H ) soit la proportion de pièce de monnaie se retourne après chaque série de trois têtes dans une rangée qui sont têtes. ( Exemple au bas de cette réponse. )p^(H|3T)p^(H|3H)

Soit .x:=p^(H|3H)p^(H|3T)

Si les pièces sont lancées, alors "évidemment", sur de nombreuses séquences de 100 pièces,

(1) devrait se produire aussi souvent que x < 0 .x>0x<0

(2) .E(X)=0

Nous générons un million de séquences de 100 jetons et obtenons les deux résultats suivants:

(I) se produit à peu près aussi souvent que x < 0 .x>0x<0

(II) ( ˉ x est la moyenne de x sur les millions de séquences).x¯0x¯x

Et donc nous concluons que les lancers de pièces sont en effet iid et il n'y a aucune preuve d'une main chaude. C'est ce qu'a fait GVT (1985) (mais avec des tirs de basket-ball à la place des lancers de pièces). Et c'est ainsi qu'ils ont conclu que la main chaude n'existe pas.


Punchline: Étonnamment, (1) et (2) sont incorrects. Si les lancers de pièces sont iid, alors il devrait plutôt être que

x>0x<0x=0x

E(X)0.08

L'intuition (ou contre-intuition) impliquée est similaire à celle de plusieurs autres puzzles de probabilité célèbres: le problème de Monty Hall, le problème des deux garçons et le principe du choix restreint (dans le jeu de cartes). Cette réponse est déjà assez longue et je vais donc sauter l'explication de cette intuition.

Ainsi, les résultats mêmes (I) et (II) obtenus par GVT (1985) sont en fait des preuves solides en faveur de la main chaude. C'est ce que Miller et Sanjurjo (2015) ont montré.


Analyse approfondie du tableau 4 de GVT.

Beaucoup (par exemple @scerwin ci-dessous) ont - sans prendre la peine de lire GVT (1985) - exprimé leur incrédulité que tout "statisticien qualifié aurait jamais" pris une moyenne des moyennes dans ce contexte.

Mais c'est exactement ce que GVT (1985) a fait dans son tableau 4. Voir leur tableau 4, colonnes 2-4 et 5-6, rangée du bas. Ils trouvent que la moyenne des 26 joueurs,

p^(H|1M)0.47p^(H|1H)0.48

p^(H|2M)0.47p^(H|2H)0.49

p^(H|3M)0.45p^(H|3H)0.49

k=1,2,3p^(H|kH)>p^(H|kM)

Mais si au lieu de prendre la moyenne des moyennes (un geste considéré comme incroyablement stupide par certains), nous refaisons leur analyse et agrégons les 26 joueurs (100 tirs pour chacun, à quelques exceptions près), nous obtenons le tableau suivant des moyennes pondérées.

Any                     1175/2515 = 0.4672

3 misses in a row       161/400 = 0.4025
3 hits in a row         179/313 = 0.5719

2 misses in a row       315/719 = 0.4381
2 hits in a row         316/581 = 0.5439        

1 miss in a row         592/1317 = 0.4495
1 hit in a row          581/1150 = 0.5052

Le tableau indique, par exemple, qu'un total de 2 515 tirs ont été effectués par les 26 joueurs, dont 1 175 ou 46,72% ont été réalisés.

Et sur les 400 cas où un joueur a raté 3 d'affilée, 161 ou 40,25% ont été immédiatement suivis d'un coup sûr. Et sur les 313 cas où un joueur a touché 3 d'affilée, 179 ou 57,19% ont été immédiatement suivis d'un coup.

Les moyennes pondérées ci-dessus semblent être des preuves solides en faveur de la main chaude.

Gardez à l'esprit que l'expérience de tir a été conçue de manière à ce que chaque joueur tire depuis l'endroit où il a été déterminé qu'il pouvait effectuer environ 50% de ses tirs.

(Remarque: "étrangement" assez, dans le tableau 1 pour une analyse très similaire avec les tirs en jeu des Sixers, GVT présente plutôt les moyennes pondérées. Alors pourquoi n'ont-ils pas fait la même chose pour le tableau 4? Je suppose qu'ils a certainement calculé les moyennes pondérées pour le tableau 4 - les chiffres que je présente ci-dessus, n'a pas aimé ce qu'ils ont vu et ont choisi de les supprimer. Ce type de comportement est malheureusement comparable à celui des cours universitaires.)


HHHTTTHHHHHHp^(H|3T)=1/1=1

p^(H|3H)=91/920.989


Le tableau 4 de PS GVT (1985) contient plusieurs erreurs. J'ai repéré au moins deux erreurs d'arrondi. Et aussi pour le joueur 10, les valeurs entre parenthèses dans les colonnes 4 et 6 ne totalisent pas une de moins que celle de la colonne 5 (contrairement à la note en bas). J'ai contacté Gilovich (Tversky est mort et Vallone je ne suis pas sûr), mais malheureusement il n'a plus les séquences originales de coups sûrs et manqués. Le tableau 4 est tout ce que nous avons.

Kenny LJ
la source
En examinant le tableau 4 du GMT 1985, ils ont testé 26 élèves individuels et n'ont trouvé qu'un seul exemple de "main chaude" statistiquement significative (ils ont comparé chaque cas avec p <0,05). C'est l'effet de la gelée verte . Soit dit en passant, si chaque élève avait été positionné avec précision de manière à pouvoir effectuer environ 50% de ses tirs, alors bien moins de 7 élèves auraient dû avoir des taux de succès en dehors d'une fourchette de 40 à 60 sur 100 (sauf si il y a un énorme effet de main chaude)
Henry
4

(Avertissement: je ne connais pas cette littérature.) Il me semble que Miller et Sanjurjo critiquent valablement une mesure statistique particulière. Je ne sais pas si cela devrait être considéré comme invalidant tous les travaux antérieurs sur l'effet hot-hand, car ils se concentrent uniquement sur cette mesure particulière.

La mesure est

M:=P(make shot | made previous shot)P(make shot | miss previous shot)
P(X)X

MEM>0EM=0

EM<0M

M

usul
la source
3

Aucun des deux articles n'est assez clair en ce qui concerne leurs applications de la statistique, donc dans cette réponse, je vais tenter une clarification.

Gilovich, Mallone et Tversky (1985) définissent dans leur résumé «l'effet Hot-Hand» comme suit:

" Les joueurs de basket-ball et les fans ont tendance à croire que les chances d'un joueur de frapper un coup sont plus grandes après un coup que suite à un coup manqué lors du coup précédent. "

kHkkMk

(1)P(HHk)>P(HMk),k1

là où pour la compacité, il est entendu que le tir en question est celui qui suit immédiatement les coups ou échecs séquentiels. Ce sont des probabilités conditionnelles théoriques (c'est-à-dire des constantes), et non des fréquences empiriques relatives conditionnelles.

P^(HHk),P^(HMk)

Ho:P(HHk)P(HMk)=0

P(H)

TP^(HHk)P^(HMk)

T

T

Par conséquent, s'il y a un problème avec Gilovich et al. papier, ce n'est pas la définition de la Hot-Hand, ce n'est pas la formulation de l'hypothèse nulle, ce n'est pas la sélection de la statistique à utiliser: c'est la validité des valeurs critiques utilisées pour exécuter les tests ( et donc de l'hypothèse de distribution implicite), si en effet la distribution finie de petits échantillons (sous l'hypothèse nulle) est visiblement non centrée à zéro et également asymétrique.

Dans de tels cas, ce que l'on fait habituellement est d'obtenir par simulation des valeurs critiques spéciales afin d'effectuer le test (rappelez-vous par exemple les valeurs critiques spéciales pour le test de Dickey-Fuller pour une racine unitaire). Je n'ai pas vu une telle approche dans le document Miller-Sanjurjo - au lieu de cela, ils effectuent un "ajustement de biais moyen" et constatent qu'après cet ajustement, la conclusion du test est inversée. Je ne suis pas sûr que ce soit la voie à suivre.

200n=100p=0.5
T3=P^(HH3)P^(HM3)0.08070.07262.5%des valeurs étant négatives. L'histogramme empirique est

entrez la description de l'image ici

Alecos Papadopoulos
la source
1

À mon avis, Miller et Sanjurjo ont simplement mal calculé les fréquences relatives du tableau 1. Leur tableau est montré ci-dessous avec deux nouvelles colonnes ajoutées, qui comptent le nombre de sous-séquences HH et HT qui se produisent dans chaque séquence de 4 tours de pièces. Pour obtenir la probabilité conditionnelle souhaitée p (H | H), il faut additionner ces nombres N (HH) et N (HT) puis diviser comme indiqué ci-dessous. Cela donne p (H | H) = 0,5, comme prévu. Pour une raison quelconque, Miller et Sanjurjo ont d'abord calculé la fréquence relative de chaque séquence, puis ont fait la moyenne sur les séquences. C'est juste faux.

Sequence     Subsequences       N(HH) N(HT)    p(H|H)
TTTT  ->  TT.. , .TT. , ..TT      0     0        -  
TTTH  ->  TT.. , .TT. , ..TH      0     0        -  
TTHT  ->  TT.. , .TH. , ..HT      0     1       0.0 
THTT  ->  TH.. , .HT. , ..TT      0     1       0.0 
HTTT  ->  HT.. , .TT. , ..TT      0     1       0.0 
TTHH  ->  TT.. , .TH. , ..HH      1     0       1.0 
THTH  ->  TH.. , .HT. , ..TH      0     1       0.0 
THHT  ->  TH.. , .HH. , ..HT      1     1       0.5 
HTTH  ->  HT.. , .TT. , ..TH      0     1       0.0 
HTHT  ->  HT.. , .TH. , ..HT      0     2       0.0 
HHTT  ->  HH.. , .HT. , ..TT      1     1       0.5 
THHH  ->  TH.. , .HH. , ..HH      2     0       1.0 
HTHH  ->  HT.. , .TH. , ..HH      1     1       0.5 
HHTH  ->  HH.. , .HT. , ..TH      1     1       0.5 
HHHT  ->  HH.. , .HH. , ..HT      2     1       0.66
HHHH  ->  HH.. , .HH. , ..HH      3     0       1.0 
                                 --    --       ----
                                 12    12       0.40
                            p(H|H)=N(HH)/N(H*)
                                  =12/(12+12)
                                  =0.5
scerwin
la source
Leur argument est que plutôt que de calculer les occurrences individuelles TT et TH (comme vous l'avez fait), les probabilités p (H | H) devraient être moyennées (car toutes les séquences sont également probables).
Giskard
1
Peut-être qu'un tableau plus simple rendra leur erreur plus évidente. Permettons seulement deux séquences particulières de 4 flip: TTHT et HHHH. Ceux-ci donnent les sous-séquences 2 flip suivantes: TT, TH, HT, HH, HH, HH. De cette liste, il est assez évident que lorsque la première pièce retournée montre H, il est très probable qu'elle soit suivie d'un autre H (cela se produit 3 fois sur 4). Une "pièce chaude" en effet! Mais la méthode de Miller et Sanjurjo ne prédirait aucune chaleur, car la moyenne des fréquences pour TTHT et HHHH (0,0 et 1,0) est de 0,5. En revanche, la méthode habituelle donne la bonne réponse: p (H | H) = 3 / (3 + 1) = 0,75.
scerwin
Je pense que leur point de vue est que cette «erreur» que vous signalez était précisément ce que les premiers chercheurs ont fait.
Kenny LJ
1
Peut être. Mais cette affirmation concernant les chercheurs précédents est-elle correcte? Aucun statisticien qualifié ne calculerait jamais une probabilité comme Miller et Sanjurjo l'ont fait dans le tableau 1. C'est analogue au calcul de la moyenne au bâton d'un joueur de baseball en calculant d'abord sa moyenne pour chaque match, puis en faisant la moyenne des matchs. C'est tout simplement faux.
scerwin
"Mais cette affirmation concernant les chercheurs précédents est-elle correcte? Aucun statisticien qualifié ne calculerait jamais une probabilité comme Miller et Sanjurjo l'ont fait dans le tableau 1." Vous devriez peut-être prendre le temps de lire les articles en question. Surtout GVT (1985).
Kenny LJ
0

Dans toute séquence observée, le dernier conditionnel est "manquant" dans le sens où il n'y a plus de valeur par la suite. Les auteurs traitent cela en ignorant simplement les cas où cela se produit, en disant qu'ils ne sont pas définis. Si la série est courte, ce choix aura un impact évident sur les calculs. La figure 1 est une belle illustration de cette idée.


la source
-1

Je vais changer un commentaire que j'ai fait ci-dessus en réponse, et prétendre que la réponse à la question d'origine est que les documents originaux sont corrects. Les auteurs de l'article de 2015 lancent des séquences qui devraient logiquement être incluses dans leur analyse, comme je le décris dans le commentaire, et introduisent donc un biais qui soutient leurs affirmations. Le monde fonctionne comme il se doit.

Addendum en réponse au commentaire: Nous examinons le tableau 1 du document. Nous voyons que nous rejetons 4 valeurs de la dernière colonne, donc pour obtenir la différence attendue, nous ne faisons que la moyenne sur 12 des 16 séquences. Si nous regardons ces probabilités comme des fréquences, et nous disons, pour la première ligne TTTT, quelle est la fréquence à laquelle une tête suit une tête, alors logiquement cela se produit toujours, et nous devrions mettre un 1 dans le p (H, H ), pas un tiret. Nous faisons cela pour les trois autres séquences que nous avons jetées, et nous concluons que la valeur attendue de la différence est 0, pas -.33. Nous ne pouvons pas simplement jeter des données comme ça, quand il y a une interprétation logique claire des données.

Notez que pour faire disparaître la dérive, nous devons calculer correctement les probabilités, ce qui n'est pas fait dans le papier. Les probabilités dans le tableau seraient la "probabilité qu'une tête suive une queue, dans cette séquence donnée de quatre lancers". Et nous voyons que pour la ligne TTTH, nous sommes censés croire que la probabilité est de 1/3. Ce n'est pas. Il y a quatre lancers dans la rangée, et l'un des quatre lancers dans cette rangée est l'événement "une tête suit une queue". La probabilité est de 1/4. Calculez donc correctement les probabilités et utilisez toutes les lignes pour obtenir la réponse acceptée depuis 30 ans.

user164740
la source
La question est de savoir si Miller et Sanjurjo (2015) ont raison de souligner que les chercheurs précédents ont fait une erreur (et n'ont donc pas détecté la main chaude). Si oui, veuillez expliquer. Sinon, veuillez également expliquer. La question n'est pas de savoir si nous pouvons ou ne pouvons pas "simplement jeter des données comme ça" ou si "le monde fonctionne comme il se doit".
Kenny LJ
Miller et Sanjuro ne sont pas corrects, car ils jettent des données qui appartiennent logiquement à l'analyse, et introduisent donc un biais qui n'est pas dans le monde.
user164740