J'ai des données montrant les résultats de l'examen d'entrée des pompiers. Je teste l'hypothèse selon laquelle les résultats des examens et l'appartenance ethnique ne sont pas mutuellement indépendants. Pour tester cela, j’ai effectué un test du chi-carré de Pearson dans R. Les résultats montrent ce à quoi j’attendais, mais il a averti que " In chisq.test(a) : Chi-squared approximation may be incorrect
."
> a
white black asian hispanic
pass 5 2 2 0
noShow 0 1 0 0
fail 0 2 3 4
> chisq.test(a)
Pearson's Chi-squared test
data: a
X-squared = 12.6667, df = 6, p-value = 0.04865
Warning message:
In chisq.test(a) : Chi-squared approximation may be incorrect
Est-ce que quelqu'un sait pourquoi il a donné un avertissement? Est-ce parce que j'utilise une mauvaise méthode?
r
categorical-data
chi-squared
small-sample
error-message
utilisateur1883491
la source
la source
Réponses:
Cela a donné l'avertissement, car bon nombre des valeurs attendues seront très petites et donc les approximations de p risquent de ne pas être correctes.
Dans
R
vous pouvez utiliserchisq.test(a, simulate.p.value = TRUE)
pour utiliser simuler des valeurs p.Cependant, avec de si petites tailles de cellules, toutes les estimations seront médiocres. Il pourrait être bon de simplement tester succès contre échec (en supprimant "no show") avec une régression Khi-deux ou logistique. En effet, comme il est assez clair que la note de passage / échec est une variable dépendante, la régression logistique pourrait être meilleure.
la source
simulate.p.value = TRUE
quand ajouté àchisq.test
?simulate.p.value = TRUE
simulation est conditionnelle aux marges , ce qui en fait une version du test exact de Fisher.Le problème est que l'approximation du khi-deux de la distribution de la statistique de test repose sur le fait que les comptes sont distribués à peu près normalement. Si nombre des dénombrements prévus sont très faibles, l’approximation peut être médiocre.
Notez que la distribution réelle de la statistique chi-carré d'indépendance dans les tableaux de contingence est discrète et non continue.
La catégorie noshow contribuera grandement au problème; Une chose à considérer est de fusionner noshow et échouer. Vous aurez toujours l'avertissement mais cela n'affectera pas les résultats et la distribution devrait être assez raisonnable (la règle appliquée avant que l'avertissement ne soit donné est trop stricte).
Toutefois, dans tous les cas, si vous êtes prêt à conditionner vos marges (comme vous le faites lorsque vous exécutez le test exact de Fisher), vous pouvez traiter le problème très facilement dans R; définir l'
simulate.p.value
argument àTRUE
; alors vous ne vous fiez pas à l'approximation du Khi-deux pour la distribution de la statistique de test.la source
Pour de tels comptes, vous pouvez utiliser le test exact de Fisher:
la source
Veuillez vous reporter à la section "Hypothèses" de l'article de test du chi-carré de Pearson .
En un mot, lorsque le nombre de cellules dans votre tableau est inférieur à 5, l’une des hypothèses est cassée. Je pense que c'est ce que le message d'erreur fait référence. Dans l'article lié, vous pouvez également trouver des informations sur la correction à appliquer.
la source
Votre question principale parle de la taille de l'échantillon, mais je vois que plus de deux groupes sont comparés. Si la valeur p du test est de 0,05 ou moins, il serait difficile d'interpréter les résultats. Par conséquent, je partage un bref script que j'utilise dans de telles situations:
Ce code générera à la fois le Chi-carré de Pearson et le Chi-carré de Fisher. Il produit des nombres ainsi que des proportions de chacune des entrées de la table. Sur la base des valeurs résiduelles ou z standardisées, c’est-à-dire:
Si c'est en dehors de la plage | 1,96 | c'est-à-dire inférieur à -1,96 ou supérieur à 1,96, il est significatif p <0,05. Le signe indiquerait alors s'il est lié positivement ou négativement.
la source