D'une part, j'ai la régression à la moyenne et d'autre part j'ai l' erreur du joueur .
Le sophisme de Gambler est défini par Miller et Sanjurjo (2019) comme «la croyance erronée que les séquences aléatoires ont une tendance systématique au renversement, c'est-à-dire que les séquences de résultats similaires sont plus susceptibles de se terminer que de continuer». Par exemple, une pièce de monnaie qui tombe plusieurs têtes on pense que les périodes consécutives risquent de tomber de façon disproportionnée lors du prochain essai.
J'ai eu une bonne performance lors du dernier match et, selon la régression vers la moyenne, j'aurai probablement une pire performance lors du prochain match.
Mais selon l'erreur du joueur: considérez les deux probabilités suivantes, en supposant une pièce de monnaie équitable
- probabilité de 20 têtes, puis 1 queue =
- probabilité de 20 têtes, puis 1 tête =
Ensuite...
Prenons un exemple simple: une classe d'élèves fait un test vrai / faux de 100 points sur un sujet. Supposons que tous les élèves choisissent au hasard sur toutes les questions. Ensuite, le score de chaque élève serait la réalisation de l'une d'un ensemble de variables aléatoires indépendantes et identiquement distribuées, avec une moyenne attendue de 50.
Naturellement, certains élèves obtiendront un score nettement supérieur à 50 et certains sensiblement inférieur à 50 juste par hasard. Si l'on ne prend que les 10% des meilleurs élèves et leur donne un deuxième test sur lequel ils choisissent à nouveau au hasard sur tous les éléments, le score moyen devrait à nouveau être proche de 50.
Ainsi, la moyenne de ces élèves «régresserait» jusqu'à la moyenne de tous les élèves qui ont passé le test d'origine. Quel que soit le score d'un élève au test d'origine, la meilleure prédiction de son score au deuxième test est de 50.
En particulier Si l'on ne prend que les 10% des élèves les mieux notés et leur donne un deuxième test sur lequel ils choisissent à nouveau au hasard sur tous les items, le score moyen devrait de nouveau être proche de 50.
Selon l'erreur du joueur, ne devrait-on pas s'attendre à la même probabilité de marquer et pas nécessairement plus proche de 50?
Miller, JB et Sanjurjo, A. (2019). Comment l'expérience confirme le sophisme du joueur lorsque la taille de l'échantillon est négligée.
la source
Réponses:
Je pense que la confusion peut être résolue en considérant que le concept de «régression vers la moyenne» n'a vraiment rien à voir avec le passé. C'est simplement l'observation tautologique qu'à chaque itération d'une expérience, nous attendons le résultat moyen. Donc, si nous avions auparavant un résultat supérieur à la moyenne, nous nous attendons à un résultat pire, ou si nous avions un résultat inférieur à la moyenne, nous nous attendons à un meilleur. Le point clé est que l' attente elle - même ne dépend d'aucune histoire antérieure comme elle le fait dans l'erreur du joueur.
la source
the expectation itself does not depend on any previous history
etif we previously had an above average outcome then we expect a worse result
. Vous utilisez le mot attendre aux deux endroits et parlez de l' histoire passée / précédente aux deux endroits.Si vous deviez vous trouver dans une telle position, en tant que personne rationnelle (et en supposant une pièce de monnaie équitable), votre meilleur pari serait de deviner. Si vous deviez vous retrouver dans une position de joueur superstitieux, votre meilleur pari serait de regarder les événements antérieurs et d'essayer de justifier votre raisonnement sur le passé - par exemple, "Wow, les têtes sont chaudes , il est temps de bouger!" ou "Il n'y a aucun moyen de voir une autre tête - la probabilité de ce genre de séquence est incroyablement faible!".
L'erreur du joueur ne se rend pas compte que chaque chaîne particulière de 20 pièces nous jette incroyablement improbable - par exemple, il est très peu probable de retourner 10 têtes puis 10 queues, très peu probable de retourner des têtes et des queues alternées, très peu probable de se diviser en 4, etc. Il est même très peu probable de retourner HHTHHTTTHT .. car pour n'importe quelle chaîne, il n'y a qu'une seule façon pour que cela se produise à partir de nombreux résultats différents . Ainsi, confondre l'un de ces éléments comme "probable" ou "improbable" est une erreur, car ils sont tous équiprobables.
La régression vers la moyenne est la croyance justifiée qu'à long terme, vos observations devraient converger vers une valeur attendue finie. Par exemple, je parie que 10 des 20 lancers de pièces sont bons car il existe de nombreuses façons d'y parvenir. Un pari sur 15 sur 20 est beaucoup moins probable car il y a beaucoup moins de chaînes qui atteignent ce décompte final. Il convient de noter que si vous vous asseyez et que vous lancez des pièces (passables) assez longtemps, vous vous retrouverez finalement avec quelque chose qui est à peu près 50/50 - mais vous ne vous retrouverez pas avec quelque chose qui n'a pas de "stries" ou autre improbable événements en elle. C'est le cœur de la différence entre ces deux concepts.
TL; DR : La régression vers la moyenne indique qu'au fil du temps, vous vous retrouverez avec une distribution qui reflète celle attendue dans n'importe quelle expérience. Le sophisme du joueur (à tort) dit que chaque tirage individuel d'une pièce a de la mémoire quant aux résultats précédents, ce qui devrait avoir un impact sur le prochain résultat indépendant.
la source
Regression to the mean is the rightly-founded belief that in the long run, your observations should converge to a finite expected value
- C'est la « illusion du joueur » - qui après une série de têtes, queues est maintenant plus probable, car avec une pièce de monnaie de juste il convergera ...J'essaie toujours de me rappeler que la régression vers la moyenne n'est pas un mécanisme compensatoire pour observer les valeurs aberrantes.
Il n'y a pas de relation de cause à effet entre avoir un parcours de jeu exceptionnel, puis aller 50-50 après cela. C'est juste un moyen utile de se rappeler que, lorsque vous échantillonnez à partir d'une distribution, vous êtes le plus susceptible de voir des valeurs proches de la moyenne (pensez à ce que l'inégalité de Chebyshev a à dire ici).
la source
Voici un exemple simple: vous avez décidé de lancer un total de 200 pièces. Jusqu'à présent, vous en avez lancé 100 et vous avez été extrêmement chanceux: 100% sont venus en tête (incroyable, je sais, mais restons simples).
Conditionnel à 100 têtes lors des 100 premiers lancers, vous vous attendez à avoir 150 têtes au total à la fin de la partie. Un exemple extrême de l' erreur du joueur serait de penser que vous n'attendez toujours que 100 têtes au total (c'est-à-dire la valeur attendue avant de commencer le jeu), même après avoir obtenu 100 dans les 100 premiers lancers. Le joueur pense fallacieusement que les 100 prochains lancers doivent être des queues. Un exemple de régression vers la moyenne (dans ce contexte) est que votre taux de 100% devrait tomber à 150/200 = 75% (c'est-à-dire vers la moyenne de 50%) à la fin du jeu.
la source
Je peux me tromper, mais j'ai toujours pensé que la différence résidait dans l'hypothèse de l'indépendance.
Dans l'erreur du joueur, le problème est le malentendu sur l'indépendance. Bien sûr, sur un grand nombre N de lancers de pièces, vous serez autour d'une répartition 50-50, mais si par hasard vous n'êtes pas, alors la pensée que vos prochains lancers T aideront à égaliser les chances est fausse car chaque lancer de pièces est indépendant de la précédente.
La régression vers la moyenne est, là où je la vois utilisée, une idée que les tirages dépendent des tirages précédents ou d'une moyenne / valeurs calculées précédentes. Par exemple, utilisons le pourcentage de tir NBA. Si le joueur A a réalisé en moyenne 40% de ses tirs au cours de sa carrière et entame une nouvelle année en tirant à 70% lors de ses 5 premiers matchs, il est raisonnable de penser qu'il régressera à la moyenne de sa moyenne de carrière. Il y a des facteurs dépendants qui peuvent et vont influencer son jeu: les séquences chaudes / froides, le jeu des coéquipiers, la confiance et le simple fait que s'il maintenait 70% de tir pour l'année, il anéantirait absolument plusieurs enregistrements qui sont tout simplement des exploits physiques impossibles. (sous les capacités de performance actuelles des joueurs de basket-ball professionnels). À mesure que vous jouez à plus de jeux, votre pourcentage de tir chutera probablement plus près de votre moyenne de carrière.
la source
La clé est que nous n'avons aucune information qui nous aidera avec le prochain événement (erreur du joueur), car le prochain événement ne dépend pas de l'événement précédent. Nous pouvons faire une estimation raisonnable du déroulement d'une série d'essais. Cette estimation raisonnable est la moyenne aka notre résultat moyen attendu. Ainsi, lorsque nous observons une déviation de la tendance moyenne vers la moyenne, au fil du temps / essais, nous assistons alors à une régression vers la moyenne.
Comme vous pouvez le voir, la régression vers la moyenne est une série d'actions observées , ce n'est pas un prédicteur. Au fur et à mesure que de nouveaux essais sont menés, les choses se rapprocheront davantage d'une distribution normale / gaussienne. Cela signifie que je ne fais aucune hypothèse ni ne devine quel sera le prochain résultat. En utilisant la loi des grands nombres, je peux théoriser que même si les choses ont tendance à évoluer dans un sens actuellement, avec le temps, les choses s'équilibreront. Lorsqu'ils s'équilibrent, l'ensemble de résultats a régressé jusqu'à la moyenne. Il est important de noter ici que nous ne disons pas que les futurs essais dépendent des résultats passés. J'observe simplement un changement dans l'équilibre des données.
Le sophisme du joueur, si je comprends bien, est plus immédiat dans ses objectifs et se concentre sur la prédiction d'événements futurs. Cela suit ce que désire un joueur. En règle générale, les jeux de hasard sont dirigés contre le joueur à long terme, de sorte qu'un joueur veut savoir quel sera le prochain essai, car il veut capitaliser sur ces connaissances. Cela conduit le joueur à supposer à tort que le prochain essai dépend de l'essai précédent. Cela peut conduire à des choix neutres comme:
Ou le choix peut être égoïste:
Comme vous pouvez le voir, il existe quelques différences clés:
La régression vers la moyenne ne suppose pas que les essais indépendants soient dépendants comme l'erreur du joueur.
La régression vers la moyenne est appliquée sur une grande quantité de données / essais, où l'erreur du joueur est concernée par l'essai suivant.
La régression vers la moyenne décrit ce qui s'est déjà produit. Le sophisme de Gambler tente de prédire l'avenir sur la base d'une moyenne attendue et des résultats passés.
la source
Les élèves ayant des notes plus élevées obtiennent-ils de moins bons résultats aux nouveaux tricheurs?
La question a reçu une révision substantielle depuis la dernière des six réponses.
Ou devraient-ils simplement rester à l'écart de la roulette?
Pièces de monnaie chanceuses et flips chanceux
Ainsi, même lorsque certaines pièces sont meilleures que d'autres, le caractère aléatoire des pièces retournées signifie que la sélection des meilleurs joueurs d'un test affichera toujours une régression vers la moyenne dans un nouveau test. Dans ce modèle modifié, la neutralité n'est plus une erreur pure et simple - un meilleur score au premier tour signifie une probabilité plus élevée d'avoir une bonne pièce! Cependant, l'erreur du joueur est toujours une erreur - ceux qui ont eu de la chance ne peuvent pas être compensés par la malchance lors du nouveau test.
la source
Ils disent la même chose. Vous étiez surtout confus parce qu'aucune expérience unique dans l'exemple de coin flip n'a un résultat extrême (H / T 50/50). Changez-le en "retournant dix pièces justes en même temps dans chaque expérience", et les joueurs veulent les obtenir tous correctement. Une mesure extrême serait alors que vous vous aperceviez que tous sont des têtes.
Erreur du joueur: Traitez chaque résultat de jeu (résultat de retournement de pièce) comme un ID . Si vous connaissez déjà la distribution de ces partages IID, la prochaine prédiction devrait provenir directement de la distribution connue et n'a rien à voir avec les résultats historiques (ou futurs) (autrement dit les autres IID).
Régression vers la moyenne: Traitez chaque résultat de test comme un IID (puisque l'étudiant est supposé deviner au hasard et n'a aucune compétence réelle). Si vous connaissez déjà la distribution de ces partages IID, alors la prochaine prédiction vient directement de la distribution connue et n'a rien à voir avec les résultats historiques (ou futurs) (aka autre IID) ( exactement comme avant jusqu'ici ). Mais, par CLT , si vous avez observé des valeurs extrêmes dans une mesure (par exemple, par hasard, vous n'échantillonniez que les 10% des meilleurs élèves du premier test), vous devriez savoir que le résultat de votre prochaine observation / mesure sera toujours généré à partir de la valeur connue. distribution (et donc plus susceptibles d'être plus proches de la moyenne que de rester à l'extrême).
Donc, fondamentalement, ils disent tous les deux que la prochaine mesure proviendra de la distribution plutôt que des résultats passés.
la source
Soit X et Y deux variables aléatoires uniformes iid sur [0,1]. Supposons que nous les observions les uns après les autres.
Erreur du joueur: P (Y | X)! = P (Y) C'est, bien sûr, un non-sens car X et Y sont indépendants.
Régression vers la moyenne: P (Y <X | X = 1)! = P (Y <X) Cela est vrai: LHS est 1, LHS <1
la source
Merci vos réponses, je pense que je pouvais comprendre la différence entre la régression à la moyenne et l'erreur de Gambler. Plus encore, j'ai construit une base de données pour m'aider à illustrer dans le "vrai" cas.
J'ai construit cette situation: j'ai rassemblé 1000 étudiants et je les ai mis à faire un test en répondant aléatoirement à des questions.
Le score du test varie de 01 à 05. Comme ils répondent à des questions au hasard, chaque score a donc 20% de chances d'être atteint. Donc, pour le premier test, le nombre d'élèves avec un score de 05 devrait être proche de 200
J'ai eu 196 étudiants avec un score de 05, ce qui est très proche des 200 étudiants attendus.
J'ai donc mis ces 196 étudiants répéter le test est prévu 39 étudiants avec le score 05.
Eh bien, selon le résultat, j'ai obtenu 42 étudiants, ce qui est conforme aux attentes.
Pour ceux qui ont obtenu le score 05, je leur ai demandé de répéter le test et ainsi de suite ...
Par conséquent, les chiffres attendus étaient les suivants:
RETEST 03 prévu
(3.3) Résultats (8)
RETEST 04 prévu
(4.3) Résultats (2)
RETEST attendu 05
(4.3) Résultats (0)
Par conséquent, la probabilité qu'un élève obtienne le score 05 dans les 05 tests n'a rien à voir avec son dernier score, je veux dire, je ne dois pas calculer la probabilité sur chaque test individuellement. Je dois rechercher ces 05 tests comme un événement et calculer la probabilité de cet événement.
la source