Disons que nous lançons à plusieurs reprises une bonne pièce et que nous savons que le nombre de têtes et de queues devrait être à peu près égal. Quand nous voyons un résultat comme 10 têtes et 10 queues pour un total de 20 lancers, nous croyons les résultats et sommes enclins à croire que la pièce est juste.
Eh bien, quand vous voyez un résultat comme 10000 têtes et 10000 queues pour un total de 20000 lancers, je remets en question la validité du résultat (l'expérimentateur a-t-il simulé les données), car je sais que c'est plus improbable que, disons un résultat de 10093 têtes et 9907 queues.
Quel est l'argument statistique derrière mon intuition?
la source
J'aime l'explication de Srikant, et je pense que l'idée bayésienne est probablement la meilleure façon d'aborder un problème comme celui-ci. Mais voici une autre façon de le voir sans Bayes: (en R)
qui est d'environ 31,2 sur mon système. En d'autres termes, il est plus de 30 fois plus susceptible de voir 10 sur 20 que de voir 10 000 sur 20 000, même avec une pièce de monnaie équitable dans les deux cas. Ce rapport augmente sans limite à mesure que la taille de l'échantillon augmente.
Il s'agit d'une sorte d'approche du rapport de vraisemblance, mais encore une fois, dans mon instinct, cela ressemble plus à un jugement bayésien.
la source
Un argument bayésien subjectiviste est pratiquement le seul moyen (d'un point de vue statistique) de comprendre votre intuition qui, à proprement parler, fait l'objet d'une enquête psychologique et non statistique. Cependant, il est manifestement injuste - et donc invalide - d'utiliser une approche bayésienne pour affirmer qu'un enquêteur a falsifié les données. La logique est parfaitement circulaire: cela revient à dire "sur la base de mes croyances antérieures sur le résultat, je trouve votre résultat incroyable, et donc vous devez avoir triché". Un tel argument égoïste et illogique ne résiderait évidemment pas dans une salle d'audience ou dans un processus d'examen par les pairs.
Bien qu'un tel test ne puisse pas se révéler faux, il peut être appliqué aux futurs rapports de cet expérimentateur pour évaluer la crédibilité de ses affirmations, sans émettre d'hypothèses fâcheuses et insoutenables basées uniquement sur votre intuition. C'est beaucoup plus juste et rigoureux que d'invoquer un argument bayésien pour impliquer quelqu'un qui pourrait être parfaitement innocent et qui s'est avéré tellement malchanceux qu'il a obtenu un beau résultat expérimental!
la source
Je pense que votre intuition est défectueuse. Il semble que vous compariez implicitement un seul résultat "très spécial" (exactement 10000 têtes) avec un ensemble de nombreux résultats (tous les nombres "non spéciaux" de têtes proches de 10000). Cependant, la définition de "spécial" est un choix arbitraire basé sur notre psychologie. Que diriez-vous de binaire 10000000000000 (décimal 8192) ou Hex ABC (décimal 2748) - serait-ce aussi étrangement spécial? Comme l'a commenté Joris Meys, l'argument Bayes serait essentiellement le même pour n'importe quel nombre de têtes, ce qui implique que chaque résultat serait suspect.
Pour développer un peu l'argument: vous voulez tester une hypothèse ("l'expérimentateur fait semblant"), puis vous choisissez une statistique de test (nombre de têtes). Maintenant, cette statistique de test est-elle adaptée pour vous dire quelque chose sur votre hypothèse? Pour moi, il semble que la statistique de test choisie ne soit pas informative (pas fonction d'un paramètre spécifié comme valeur fixe dans l'hypothèse). Cela revient à la question de savoir ce que vous entendez par «tricherie». Si cela signifie que l'expérimentateur contrôle la pièce à volonté, cela ne se reflète pas dans la statistique de test. Je pense qu'il faut être plus précis pour trouver un indicateur quantifiable, et donc rendre la question susceptible d'un test statistique.
la source
La conclusion que vous tirerez dépendra TRÈS de la priorité que vous choisissez pour la probabilité de tricherie et de la probabilité antérieure que, étant donné que le flipper ment, x têtes soient signalées.
Mettre le plus de masse sur P (10000 têtes rapportées) est un peu contre-intuitif à mon avis. À moins que le journaliste ne soit naïf, je ne peux pas imaginer que quiconque rapporte ce genre de données falsifiées (en grande partie pour les raisons que vous avez mentionnées dans le message d'origine; c'est trop suspect pour la plupart des gens.) Si la pièce est vraiment injuste et que le flipper devait signaler des données falsifiées, alors je pense qu'un a priori plus raisonnable (et très approximatif) sur les résultats rapportés pourrait être un a priori uniforme discret P (X têtes rapportées | allongées) = 1/201 pour les entiers {9900, ..., 10100} et P (x têtes rapportées | allongées) = 0 pour tous les autres x. Supposons que vous pensez que la probabilité antérieure de mentir est de 0,5. Alors quelques probabilités postérieures sont:
P (allongé | 9900 têtes signalées) = P (allongé | 10100 têtes signalées) = 0,70;
P (allongé | 9950 têtes signalées) = P (allongé | 10050 têtes signalées) = 0,54;
P (mensonge | 10000 têtes signalées) = 0,47.
La plupart des nombres raisonnables de têtes rapportées d'une pièce de monnaie équitable entraîneront des soupçons. Juste pour montrer à quel point les probabilités postérieures sont sensibles à vos aînés, si la probabilité antérieure de tricherie est abaissée à 0,10, alors les probabilités postérieures deviennent:
P (allongé | 9900 têtes signalées) = P (allongé | 10100 têtes signalées) = 0,21;
P (allongé | 9950 têtes signalées) = P (allongé | 10050 têtes signalées) = 0,11;
P (mensonge | 10000 têtes signalées) = 0,09.
Je pense donc que la réponse originale (et très bien notée) pourrait être développée un peu; vous ne devez en aucun cas conclure que les données sont falsifiées sans avoir soigneusement pris en compte les informations préalables. De plus, en y réfléchissant intuitivement, il semble que les probabilités postérieures de mentir soient probablement plus influencées par la probabilité antérieure de mentir plutôt que par la distribution antérieure des têtes rapportées étant donné que le nageoire ment (sauf pour les prieurs qui mettent tout leur masse sur un petit nombre de têtes rapportée étant donné que le flipper est couché, comme dans mon exemple.)
la source
Pour l'explication bayésienne, vous avez besoin d'une distribution de probabilité préalable sur les résultats rapportés par un lanceur de pièces menteur, ainsi que d'une probabilité antérieure de mentir. Lorsque vous voyez une valeur qui est beaucoup plus probable sous la distribution des mensonges que celle inversée au hasard, cela rend votre probabilité de mentir postérieure beaucoup plus élevée.
la source