Quelle est la relation entre un test du chi carré et un test de proportions égales?

52

Supposons que j'ai trois populations avec quatre caractéristiques mutuellement exclusives. Je prélève des échantillons aléatoires dans chaque population et crée un tableau croisé ou un tableau de fréquences pour les caractéristiques que je mesure. Ai-je raison de dire que:

  1. Si je voulais vérifier s'il existait une relation entre les populations et leurs caractéristiques (par exemple, si une population présentait une fréquence plus élevée de l'une de ces caractéristiques), je devrais faire un test du khi-carré et voir si le résultat était significatif.

  2. Si le test du khi-carré est significatif, il ne fait que me montrer qu'il existe une relation entre les populations et leurs caractéristiques, mais pas la relation entre elles.

  3. En outre, toutes les caractéristiques ne doivent pas nécessairement être liées à la population. Par exemple, si les distributions des caractéristiques A et B, mais pas celles de C et D, sont très différentes les unes des autres, le test du khi-carré peut encore être considéré comme significatif.

  4. Si je veux mesurer si une caractéristique spécifique est affectée par la population, je peux alors exécuter un test pour des proportions égales (j'ai vu cela appelé un test z, ou comme prop.test()dans R) sur cette caractéristique uniquement.

En d’autres termes, convient-il d’utiliser le prop.test()pour déterminer avec plus de précision la nature d’une relation entre deux ensembles de catégories lorsque le test du khi-carré indique qu’il existe une relation significative?

hgcrpd
la source
Lisez aussi: stats.stackexchange.com/q/173415/3277 .
ttnphns

Réponses:

23

Réponse très courte:

Le test du khi-carré ( chisq.test()en R) compare les fréquences observées dans chaque catégorie d'un tableau de contingence avec les fréquences attendues (calculées comme le produit des fréquences marginales). Il est utilisé pour déterminer si les écarts entre les comptes observés et attendus sont trop importants pour être attribués au hasard. Le départ de l'indépendance est facilement vérifié en inspectant les résidus (essayez ?mosaicplotou ?assocplot, mais regardez aussi le vcdpaquet). Utiliser fisher.test()pour un test exact (en se basant sur la distribution hypergéométrique).

La prop.test()fonction dans R permet de vérifier si les proportions sont comparables entre les groupes ou si elles ne diffèrent pas des probabilités théoriques. Il est appelé test parce que la statistique de test ressemble à ceci:z

z=(f1f2)p^(1p^)(1n1+1n2)

où et les indices font référence à la première et à la deuxième ligne de votre tableau. Dans une table de contingence bidirectionnelle où , cela devrait donner des résultats comparables au ordinaire :(1,2)H0:p^=(p1+p2)/(n1+n2)(1,2)χ 2H0:p1=p2χ2

> tab <- matrix(c(100, 80, 20, 10), ncol = 2)
> chisq.test(tab)

    Pearson's Chi-squared test with Yates' continuity correction

data:  tab 
X-squared = 0.8823, df = 1, p-value = 0.3476

> prop.test(tab)

    2-sample test for equality of proportions with continuity correction

data:  tab 
X-squared = 0.8823, df = 1, p-value = 0.3476
alternative hypothesis: two.sided 
95 percent confidence interval:
 -0.15834617  0.04723506 
sample estimates:
   prop 1    prop 2 
0.8333333 0.8888889 

Pour l'analyse de données discrètes avec R, je recommande fortement que le manuel R (et S-PLUS) accompagne l'analyse des données catégoriques d'Agresti (2002) , de Laura Thompson.

chl
la source
2
Existe-t-il un nom commun pour le test effectué par prop.test ()?
Atticus29
2
"C'est ce qu'on appelle un z-test".
russellpierce
@chl Je suis un peu confus - je pensais prop.testet les chisq.testdeux utilisent le chi-carré, ce qui expliquerait les valeurs p identiques, ainsi que la raison pour laquelle, dans cet article sur R-Bloggers, ils ont leur propre fonction ad hoc.
Antoni Parellada
@Antoni Oui, c'est ce que Keith a expliqué dans sa réponse.
chl
3
n1n2f1f2p1p2
23

zp

α

α

Le test le plus puissant pour l'égalité des proportions est appelé test de Barnard pour la supériorité .

Keith Winstein
la source
@gung Je suis un peu confus - je pensais prop.testet les chisq.testdeux utilisent le chi-carré, ce qui expliquerait les valeurs p identiques, ainsi que la raison pour laquelle, dans cet article sur R-Bloggers, ils ont leur propre fonction ad hoc.
Antoni Parellada
Je ne comprends pas ce qui vous trouble, @AntoniParellada. Cette réponse indique qu'ils sont "exactement les mêmes", ce qui est logique si "les deux utilisent le chi-carré".
gung - Réintégrer Monica
@gung dans la réponse initiale, chl indique que prop.test()... est désigné par le terme z-test par opposition à chisq.test(). Plus tard, Keith a déclaré: "Un test du khi-deux pour l'égalité des proportions est exactement la même chose qu'un test z. (C'est pourquoi @chl obtient exactement la même valeur p avec les deux tests.)"
Antoni Parellada
1
Cela semble être juste un phrasé malheureux, @AntoniParellada. Sur le plan conceptuel, les 2 tests sont distincts, et c'est ce que j'ai discuté dans mon autre réponse que vous avez vue. Mais mathématiquement, ils sont équivalents. En fait, je crois que la fonction R prop.test()appelle chisq.test()et imprime la sortie différemment.
gung - Réintégrer Monica
@gung J'avais travaillé sur une fonction similaire à R-Bloggers et j'allais faire un post pour les gens de mon niveau débutant, en vous citant en fait quelques concepts clés que vous avez écrits, en passant par le calcul tant pour le chi square et z-test, puis en donnant le code R.
Antoni Parellada