Si je sélectionne 232 personnes dans un groupe de 363 personnes sans remplacement, quelle est la probabilité que 2 personnes sur une liste de 12 personnes spécifiques figurent dans cette sélection?
Il s'agit d'un tirage au sort pour une course ultra où il y avait 363 participants pour 232 places. Il existe un argument pour savoir si la sélection était biaisée contre un certain groupe de 12 personnes.
Ma première tentative de calcul était qu'il y avait 232 choix 363 sélections possibles. Le nombre de combinaisons d'une même personne dans la liste des douze est 1 choisissez 12 + 2 choisissez 12 + ... + 11 choisissez 12 + 12 choisissez 12. Ainsi 1 choisissez 12 + 2 choisissez 12 .... / 232 choisissez 363 Ce qui finit par être un nombre très faible qui est clairement trop faible.
Comment puis-je calculer cela?
Réponses:
J'interprète la question comme ceci: supposons que l'échantillonnage ait été prétendument effectué comme si tickets de papier blanc étaient placés dans un pot, chacun étiqueté avec le nom d'une personne, et ont été retirés au hasard après avoir remué soigneusement le contenu du pot. Auparavant, des billets étaient de couleur rouge. Quelle est la probabilité qu'exactement deux des billets sélectionnés soient rouges? Quelle est la chance qu'au plus deux des billets soient rouges?232 12363 232 12
Une formule exacte peut être obtenue, mais nous n'avons pas besoin de faire beaucoup de travail théorique. Au lieu de cela, nous suivons simplement les chances lorsque les billets sont retirés du pot. Au moment où d'entre eux ont été retirés, que la chance de voir exactement tickets rouges soit écrite . Pour commencer, notez que si (vous ne pouvez pas avoir de tickets rouges avant de commencer) et (il est certain que vous n'avez pas de tickets rouges au départ). Maintenant, lors du tirage le plus récent, soit le ticket était rouge, soit il ne l'était pas. Dans le premier cas, nous avions auparavant une chance de voir exactementi p ( i , m ) p ( i , 0 ) = 0 i > 0 p ( 0 , 0 ) = 1 p ( i - 1 , m - 1 ) i - 1 363 - m + 1 i ( 12 - i + 1 ) / ( 363 - m + 1 )m i p(i,m) p(i,0)=0 i>0 p(0,0)=1 p(i−1,m−1) i−1 billets rouges. Nous avons ensuite passé ensuite tirer un rouge des autres billets, ce qui en fait exactement billets rouge jusqu'à présent. Parce que nous supposons que tous les billets ont des chances égales à chaque étape, notre chance de tirer un rouge de cette manière était donc . Dans l'autre cas, nous avions une chance d'obtenir exactement billets rouges dans les tirages précédents , et la chance de ne pas ajouter un autre billet rouge à l'échantillon lors du prochain tirage était363−m+1 i (12−i+1)/(363−m+1) p(i,m−1) i m−1 (363−m+1−12+i)/(363−m+1) . D'où, en utilisant des axiomes de probabilité de base (à savoir, les chances de deux cas mutuellement exclusifs s'ajoutent et les chances conditionnelles se multiplient),
Nous répétons ce calcul récursivement, en présentant un tableau triangulaire des valeurs de pour et . Après un petit calcul, nous obtenons et , répondant aux deux versions de la question. Ce sont de petits nombres: peu importe comment vous le regardez, ce sont des événements assez rares (plus rares qu'un sur mille).0 ≤ i ≤ 12 0 ≤ m ≤ 232 p ( 2 , 232 ) ≈ 0,000849884 p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) ≈ 0,000934314p(i,m) 0≤i≤12 0≤m≤232 p(2,232)≈0.000849884 p(0,232)+p(1,232)+p(2,232)≈0.000934314
En double vérification, j'ai effectué cet exercice avec un ordinateur 1 000 000 de fois. Dans 932 = 0,000932 de ces expériences, 2 tickets rouges ou moins ont été observés. Ceci est extrêmement proche du résultat calculé, car la fluctuation d'échantillonnage de la valeur attendue de 934,3 est d'environ 30 (vers le haut ou vers le bas). Voici comment se fait la simulation dans R:
Cette fois, parce que les expériences sont aléatoires, les résultats ont un peu changé: deux tickets rouges ou moins ont été observés dans 948 des millions d'essais. Cela est toujours conforme au résultat théorique.)
La conclusion est qu'il est hautement improbable que deux ou moins des 232 billets soient rouges. Si vous avez en effet un échantillon de 232 personnes sur 363, ce résultat est une forte indication que le modèle de tickets-in-a-jar n'est pas une description correcte de la façon dont l'échantillon a été obtenu. Les explications alternatives incluent (a) les tickets rouges ont été rendus plus difficiles à retirer du pot (un "biais" contre eux) ainsi que (b) les tickets ont été colorés après que l'échantillon a été observé ( espionnage des données post-hoc , ce qui ne pas de biais).
Un exemple d'explication (b) en action serait un jury pour un procès pour meurtre notoire. Supposons qu'il comprenne 363 personnes. Sur ce bassin, le tribunal a interrogé 232 d'entre eux. Un journaliste de journal ambitieux examine méticuleusement les vitae de tout le monde dans la piscine et remarque que 12 des 363 étaient des amateurs de poissons rouges, mais seulement deux d'entre eux avaient été interrogés. Le tribunal est-il partisan des amateurs de poissons rouges? Probablement pas.
la source
sample
). En effet, à chaque itération, ilsample
mélange soigneusement les tickets à chaque appel avant d'en retirer 232.@whuber a donné une explication exhaustive, je veux juste souligner qu'il existe une distribution statistique standard correspondant à ce scénario: la distribution hypergéométrique . Vous pouvez donc obtenir ces probabilités directement dans, disons, R:
Probabilité d'exactement 2 sur 12 sélectionnés:
Probabilité de 2 ou moins sur 12 sélectionnés:
la source
Les chances sont beaucoup plus élevées que celles calculées avec la distribution hypergéométrique simple, car le groupe n'est pas choisi au hasard ( "12 poissons sont peints en rouge avant le tirage" ).
D'après la description de la question, nous testons une fraude au tirage. Un groupe spécifique de 12 personnes s'est plaint que seulement 2 d'entre elles ont été sélectionnées, alors que le nombre attendu était de 232/363 ~ 2/3 = 8.
Ce que nous devons vraiment calculer, c'est quelle est la probabilité qu '" aucun groupe de taille 12 n'aura que 2 membres sélectionnés". Les chances qu'au moins un groupe ait 2 ou moins (donc se plaindra de l'équité du tirage) sont beaucoup plus élevées.
Lorsque j'exécute cette simulation et que je vérifie combien d'essais aucun des 30 (= 360/12) groupes n'avait 2 sélections ou moins, j'obtiens environ 2,3% des fois. 1:42 est bas mais pas impossible.
Vous devriez toujours vérifier la procédure du tirage au sort car elle pourrait être biaisée contre un groupe spécifique de personnes. Ils pourraient s'être réunis et avoir reçu une plage du tirage avec moins de probabilité (le premier ou le dernier nombre, par exemple), ou toute autre variable dépendante de la procédure du tirage. Mais si vous ne trouvez aucun défaut dans la procédure, vous pouvez revenir à la cote 1:42 que c'est tout simplement de la malchance pour le groupe.
la source