Pour maximiser les chances de deviner correctement le résultat d'un tirage au sort, dois-je toujours choisir le résultat le plus probable?

20

Ce ne sont pas des devoirs. Je suis intéressé à comprendre si ma logique est correcte avec ce simple problème de statistiques.

Disons que j'ai une pièce à 2 faces où la probabilité de retourner une tête est et la probabilité de retourner une queue est . Supposons que tous les flips aient des probabilités indépendantes. Maintenant, disons que je veux maximiser mes chances de prédire si la pièce sera une tête ou une queue au prochain tour. Si , je peux deviner des têtes ou des queues au hasard et la probabilité que je me trompe est de .1 - P ( H ) P ( H ) = 0,5 0,5P(H)1P(H)P(H)=0.50.5

Maintenant, supposons que , si je veux maximiser mes chances de deviner correctement, devrais-je toujours deviner les queues où la probabilité est de ?0,8P(H)=0.20.8

Pour aller plus loin, si j'avais un dé à 3 faces et que la probabilité de lancer un 1, 2 ou 3 était , et , devrais-je toujours deviner 2 pour maximiser mes chances de deviner correctement? Existe-t-il une autre approche qui me permettrait de deviner plus précisément?P ( 2 ) = 0,5 P ( 3 ) = 0,4P(1)=0.1P(2)=0.5P(3)=0.4

tortue
la source
4
Il me semble que vous posez des questions sur l'indépendance: par exemple, si vous obtenez des têtes une fois, est-ce que cela rend les queues plus probables la prochaine fois? Si ce n'est pas ce que vous demandez, pourriez-vous clarifier votre question? (Si j'ai bien compris votre question, la réponse est «oui»: dans des situations comme le tirage au sort, le résultat le plus probable sera toujours le résultat avec la plus forte probabilité, indépendamment de ce qui s'est produit précédemment.)
arboviral
Merci pour l'aide @arboviral. Oui, je suppose l'indépendance. J'ai mis à jour la question pour l'indiquer.
tortue
4
En supposant l'indépendance, la meilleure chose que vous puissiez faire est de choisir le camp avec la probabilité la plus élevée. Pense-y de cette façon. Vous n'avez aucune autre information pour mieux deviner. Tout ce que vous savez sur les dés, c'est la fréquence à laquelle un certain côté se présente et les derniers lancers. Mais l'indépendance vous indique que les lignes précédentes n'ont aucun effet sur le lancer en cours. Peut-être si vous aviez plus d'informations comme la quantité de force utilisée pour lancer les dés, le lanceur main gauche / main droite ou le nombre de secousses avant de lancer. Cependant, si les dés sont vraiment justes, je doute même que ce niveau de détail fournisse de meilleures prédictions.
Brent Ferrier
Votre supposition est correcte; c'est une conséquence immédiate de l'inégalité de Holder (avec les paramètres ). (1,)
whuber
Savez-vous que P (H) = 0,2? Ou est-ce quelque chose que vous devez comprendre en observant les résultats?
Akavall

Réponses:

43

Tu as raison. Si , et que vous utilisez une perte nulle (c'est-à-dire, vous devez deviner un résultat réel par opposition à une probabilité ou quelque chose, et en outre, obtenir des têtes lorsque vous avez deviné la queue est aussi mauvais que obtenir des queues lorsque vous avez deviné des têtes), vous devez deviner les queues à chaque fois.P(H)=0.2

Les gens pensent souvent à tort que la réponse est de deviner les queues sur 80% des essais sélectionnés au hasard et les têtes sur le reste. Cette stratégie est appelée « appariement des probabilités » et a été largement étudiée dans la prise de décisions comportementales. Voir, par exemple,

West, RF et Stanovich, KE (2003). L'appariement des probabilités est-il intelligent? Associations entre choix probabilistes et capacités cognitives. Memory & Cognition, 31 , 243–251. doi: 10.3758 / BF03194383

Kodiologue
la source
1
+1 pour le pointeur sur l'appariement des probabilités. Je n'en ai jamais entendu parler auparavant, bien que je sois sûr d'en profiter quotidiennement comme biais cognitif! :)
leekaiinthesky
2
(+1) Cela se rapporte à une idée fausse courante dans l'interprétation des modèles de régression multinomiale et autres: les gens peuvent être surpris que la distribution des classes prédites ne corresponde pas à la distribution des classes observées, et même chercher des moyens de la "corriger" . (Ravi de savoir qu'il a un nom.)
Scortchi - Réintégrer Monica
1
(+1) pour le terme "appariement de probabilité".
Haitao Du
13

Vous posez essentiellement une question très intéressante: devrais-je prédire en utilisant l' estimation "MAP Bayesian" Maximum a posteriori ou "Real Bayesian".

Supposons que vous connaissiez la vraie distribution que , puis en utilisant l'estimation MAP, supposons que vous vouliez faire 100 prédictions sur les 100 prochains résultats de retournement. Vous devriez toujours deviner que le flip est la queue , PAS deviner têtes et queues. Cela s'appelle "MAP Bayesian", en gros vous faites20 80P(H)=0.22080

argmaxθf(x|θ)

Il n'est pas difficile de prouver qu'en procédant ainsi, vous pouvez minimiser l'erreur prédite (perte 0-1). La preuve se trouve à ~ page 53 de Introduction to Statistical Learning .


Il existe une autre façon de procéder, appelée approche "Real Bayesian". Fondamentalement, vous n'essayez pas de "sélectionner le résultat avec la probabilité la plus élevée, mais considérez tous les cas de manière probabiliste". Donc, si quelqu'un vous demande de "prédire les 100 prochains flips", vous devez le mettre en pause, car lorsque vous avez donné 100 résultats binaires, les informations probabilistes pour chaque résultat disparaissent. Au lieu de cela, vous devriez demander ce que vous voulez faire APRÈS avoir connu les résultats.

Supposons qu'il ait une fonction de perte (non nécessaire pour une perte de 0-1, par exemple, la fonction de perte peut être, si vous manquez une tête, vous devez payer 1 $ , mais si vous manquez une queue, vous devez payer 5 $ , c.-à-d. Perte déséquilibrée) sur votre prédiction, alors vous devriez utiliser vos connaissances sur la distribution des résultats pour minimiser la perte sur toute la distribution

xyp(x,y)L(f(x),y)

, c.-à-d., incorporez vos connaissances sur la distribution à perte, au lieu de "la manière mise en scène", obtenez les prédictions et faites les prochaines étapes.

De plus, vous avez une très bonne intuition sur ce qui se passera quand il y aura de nombreux résultats possibles. L'estimation MAP ne fonctionnera pas bien si le nombre de résultats est important et la masse de probabilité est largement répartie. Pensez que vous avez 100 dés et vous connaissez la vraie distribution. Où et . Maintenant, que faites-vous avec MAP? Vous devinerez toujours que vous obtenez le premier côté , car il a la plus grande probabilité de se comparer aux autres. Cependant, vous vous tromperez des fois !!P(S1)=0.1P(S2)=P(S3)=P(S100)=0.9/99=0.009090S190%

Haitao Du
la source
4
MAP est également bayésien. De plus, vous décrivez les deux approches sans faire référence à l'utilisation de priors ce qui peut être trompeur puisque vous écrivez sur les méthodes bayésiennes et les priors sont la caractéristique principale de ces méthodes.
Tim
«Donc, si quelqu'un vous demande de« prédire les 100 prochains flips », vous devriez refuser de le faire.» Si cette personne m'offrait un milliard d'euros si je prédis correctement, je ne refuserais probablement pas. Ou vous voulez probablement dire «prédire» dans un sens différent de «essayer de deviner».
JiK
"lorsque vous donnez 100 résultats binaires, les informations probabilistes pour chaque résultat disparaissent" Au début, je lis ceci comme "quand on vous donne 100 résultats binaires" et je ne pouvais pas comprendre la phrase, mais maintenant je me suis rendu compte que cela pouvait signifier "quand vous donnez 100 résultats binaires ". Laquelle est correcte, et si c'est la première, qu'est-ce que cela signifie?
JiK
1
Un point très mineur: j'ajouterais probablement une ligne verticale après le deuxième paragraphe pour indiquer que les deux premiers paragraphes sont techniquement suffisants pour répondre à la question littérale et le reste est une information supplémentaire (ce qui est sans aucun doute intéressant et utile).
JiK
2
Sur le dernier paragraphe: "L'estimation MAP ne fonctionnera pas bien si le nombre de résultats est important. - - Cependant vous vous tromperez 90% des fois !!" Ne pas bien fonctionner est toujours une question de contexte. S'il s'agit par exemple d'un jeu de paris répétitif (le pot est divisé entre les personnes qui devinent correctement ou qui retournent si personne ne devine), la stratégie MAP est susceptible de gagner beaucoup d'argent à long terme si vous jouez contre des gens qui p. Ex. de la distribution des résultats.
JiK
4

En raison de l'indépendance, votre valeur d'attente est toujours maximisée si vous devinez le cas le plus probable. Il n'y a pas de meilleure stratégie car chaque flip / roll ne vous donne aucune information supplémentaire sur la pièce / dé.

Partout où vous devinez un résultat moins probable, votre attente de gagner est moindre que si vous aviez deviné le cas le plus probable, il vaut donc mieux deviner le cas le plus probable.

Si vous vouliez faire en sorte que vous deviez changer de stratégie au fur et à mesure que vous retourniez, vous pourriez envisager une pièce / dé dont vous ne connaissez pas les chances au départ et vous devez les comprendre au fur et à mesure que vous lancez.

Kitter Catter
la source
1
pour moi, cette réponse est l'explication la plus simple; si vous deviez définir une stratégie en considérant le résultat que vous aviez auparavant, cela casse les probabilités "indépendantes".
Walfrat