Supposons que j'ai trois populations avec quatre caractéristiques mutuellement exclusives. Je prélève des échantillons aléatoires dans chaque population et crée un tableau croisé ou un tableau de fréquences pour les caractéristiques que je mesure. Ai-je raison de dire que:
Si je voulais vérifier s'il existait une relation entre les populations et leurs caractéristiques (par exemple, si une population présentait une fréquence plus élevée de l'une de ces caractéristiques), je devrais faire un test du khi-carré et voir si le résultat était significatif.
Si le test du khi-carré est significatif, il ne fait que me montrer qu'il existe une relation entre les populations et leurs caractéristiques, mais pas la relation entre elles.
En outre, toutes les caractéristiques ne doivent pas nécessairement être liées à la population. Par exemple, si les distributions des caractéristiques A et B, mais pas celles de C et D, sont très différentes les unes des autres, le test du khi-carré peut encore être considéré comme significatif.
Si je veux mesurer si une caractéristique spécifique est affectée par la population, je peux alors exécuter un test pour des proportions égales (j'ai vu cela appelé un test z, ou comme
prop.test()
dansR
) sur cette caractéristique uniquement.
En d’autres termes, convient-il d’utiliser le prop.test()
pour déterminer avec plus de précision la nature d’une relation entre deux ensembles de catégories lorsque le test du khi-carré indique qu’il existe une relation significative?
Réponses:
Réponse très courte:
Le test du khi-carré (
chisq.test()
en R) compare les fréquences observées dans chaque catégorie d'un tableau de contingence avec les fréquences attendues (calculées comme le produit des fréquences marginales). Il est utilisé pour déterminer si les écarts entre les comptes observés et attendus sont trop importants pour être attribués au hasard. Le départ de l'indépendance est facilement vérifié en inspectant les résidus (essayez?mosaicplot
ou?assocplot
, mais regardez aussi levcd
paquet). Utiliserfisher.test()
pour un test exact (en se basant sur la distribution hypergéométrique).Laz
prop.test()
fonction dans R permet de vérifier si les proportions sont comparables entre les groupes ou si elles ne diffèrent pas des probabilités théoriques. Il est appelé test parce que la statistique de test ressemble à ceci:où et les indices font référence à la première et à la deuxième ligne de votre tableau. Dans une table de contingence bidirectionnelle où , cela devrait donner des résultats comparables au ordinaire :(1,2)H0:p^= ( p1+ p2) / ( n1+ n2) ( 1 , 2 ) χ 2H0:p1= p2 χ2
Pour l'analyse de données discrètes avec R, je recommande fortement que le manuel R (et S-PLUS) accompagne l'analyse des données catégoriques d'Agresti (2002) , de Laura Thompson.
la source
prop.test
et leschisq.test
deux utilisent le chi-carré, ce qui expliquerait les valeurs p identiques, ainsi que la raison pour laquelle, dans cet article sur R-Bloggers, ils ont leur propre fonction ad hoc.Le test le plus puissant pour l'égalité des proportions est appelé test de Barnard pour la supériorité .
la source
prop.test
et leschisq.test
deux utilisent le chi-carré, ce qui expliquerait les valeurs p identiques, ainsi que la raison pour laquelle, dans cet article sur R-Bloggers, ils ont leur propre fonction ad hoc.prop.test()
... est désigné par le terme z-test par opposition àchisq.test()
. Plus tard, Keith a déclaré: "Un test du khi-deux pour l'égalité des proportions est exactement la même chose qu'un test z. (C'est pourquoi @chl obtient exactement la même valeur p avec les deux tests.)"prop.test()
appellechisq.test()
et imprime la sortie différemment.