Test exact de Fisher et distribution hypergéométrique

12

Je voulais mieux comprendre le test exact du pêcheur, j'ai donc imaginé l'exemple de jouet suivant, où f et m correspond à l'homme et à la femme, et n et y correspond à la "consommation de soda" comme ceci:

> soda_gender

    f m
  n 0 5
  y 5 0

Évidemment, c'est une simplification drastique, mais je ne voulais pas que le contexte gêne. Ici, je viens de supposer que les hommes ne boivent pas de soda et les femmes boivent du soda, et je voulais voir si les procédures statistiques aboutissaient à la même conclusion.

Lorsque je lance le test exact de Fisher dans R, j'obtiens les résultats suivants:

> fisher.test(soda_gender)
Fisher's Exact Test for Count Data

data:  soda_gender
p-value = 0.007937
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.0000000 0.4353226
sample estimates:
odds ratio 
         0 

Ici, puisque la valeur de p est de 0,007937, nous concluons que le sexe et la consommation de soda sont associés.

Je sais que le test exact du pêcheur est lié à la distribution hypergéomérique. Je voulais donc obtenir des résultats similaires en utilisant cela. En d'autres termes, vous pouvez voir ce problème comme suit: il y a 10 balles, où 5 sont étiquetées comme "mâle" et 5 sont étiquetées comme "femelle", et vous tirez 5 balles au hasard sans remplacement, et vous voyez 0 balles mâles . Quelle est la chance de cette observation? Pour répondre à cette question, j'ai utilisé la commande suivante:

> phyper(q=0,m=5,n=5,k=5,lower.tail=TRUE)
[1] 0.003968254

Mes questions sont: 1) Comment se fait-il que les deux résultats soient différents? 2) Y a-t-il quelque chose de incorrect ou de non rigoureux dans mon raisonnement ci-dessus?

Alby
la source

Réponses:

10

Le test exact de Fisher fonctionne en conditionnant sur les marges de la table (dans ce cas, 5 hommes et femmes et 5 buveurs et non-buveurs de soda). Sous l'hypothèse de l'hypothèse nulle, les probabilités des cellules d'observer un buveur de soda masculin, un buveur de non-soda masculin, une buveuse de soda féminine ou une buveuse de non-soda féminine sont toutes également probables (0,25) en raison des totaux de marge.

Le tableau particulier que vous avez utilisé pour le FET n'a pas de tableau à part son contraire, 5 femmes buveurs de soda et 5 hommes buveurs de soda, ce qui est "au moins aussi peu probable" dans l'hypothèse nulle. Vous remarquerez donc que doubler la probabilité que vous avez obtenue dans votre densité hypergéométrique vous donne la valeur p du FET.

AdamO
la source
Les notes de Meng sur phyper et fisher.test (qui font la même chose, mais ont une interface très différente) sont très utiles: mengnote.blogspot.qa/2012/12/…
Aditya