Test du chi carré pour l'égalité des distributions: combien de zéros tolère-t-il?

10

Je compare deux groupes de mutants dont chacun ne peut avoir qu'un phénotype différent sur 21. J'aimerais voir si la distribution de ces résultats est similaire entre deux groupes. J'ai trouvé un test en ligne qui calcule le " test du chi carré pour l'égalité des distributions" et me donne des résultats plausibles. Cependant, j'ai pas mal de zéros dans ce tableau, puis-je utiliser du chi carré dans ce cas?

Voici le tableau avec deux groupes et dénombrements de phénotypes particuliers:

2 1
2 3
1 6
1 4
13 77
7 27
0 1
0 4
0 2
2 7
2 3
1 5
1 9
2 6
0 3
3 0
1 3
0 3
1 0
1 2
0 1
Membrane
la source
La table ne s'est pas bien déroulée. Chaque nombre impair est un décompte du groupe 1 et chaque nombre pair est le décompte respectif du groupe 2
Membran
J'ai reformaté votre question. Le tableau est-il maintenant correct?
csgillespie

Réponses:

8

Il est parfaitement possible de nos jours de faire le test «exact» de Fisher sur une telle table. Je viens d'obtenir p = 0,087 en utilisant Stata ( tabi 2 1 \ 2 3 \ .... , exact. L'exécution a pris 0,19 seconde).

MODIFIER après le commentaire de chl ci-dessous (a essayé d'ajouter un commentaire mais ne peut pas formater):

Cela fonctionne dans R 2.12.0 pour moi, même si j'ai dû augmenter l'option 'workspace' par rapport à sa valeur par défaut de 200000:

> fisher.test(x)
Error in fisher.test(x) : FEXACT error 7.
LDSTP is too small for this problem.
Try increasing the size of the workspace.
> system.time(result<-fisher.test(x, workspace = 400000))
   user  system elapsed 
   0.11    0.00    0.11 
> result$p.value
[1] 0.0866764

(Le temps d'exécution est légèrement plus rapide que dans Stata, mais cela est d'une pertinence douteuse étant donné le temps nécessaire pour déterminer la signification du message d'erreur, qui utilise `` espace de travail '' pour signifier quelque chose de différent de la signification habituelle de R malgré le fait que fisher.test fait partie du package principal de "stats" de R.)

un arrêt
la source
1
Intéressant, le test de Fisher s'est écrasé sur R.
chl
Impossible de voter plus, désolé. Il semble que je n'ai pas assez augmenté le wksp :)
chl
N'est-ce pas que le test "exact" de Fisher répond en fait à une question légèrement différente: "... il est utilisé pour examiner la signification de l'association (contingence) entre les deux types de classification" (page wiki). Dans mon cas, j'ai cherché à confirmer (ou réfuter) l'hypothèse que les distributions des phénotypes entre 2 groupes sont similaires (égales). Quand j'ai trouvé ce test en ligne (voir le premier post) nommé "Test du chi carré pour l'égalité des distributions", j'ai pensé que c'était précisément pour mon problème ...
Membran
De plus, si vous pensez que la version mentionnée du test de Fisher est appropriée pour comparer deux distributions, peut-elle également être utilisée pour vérifier l'uniformité de la distribution (c'est-à-dire que les phénotypes au sein d'un groupe ont été distribués de manière non uniforme entre un nombre fini de phénotypes possibles) ? On peut le faire même dans Excel en utilisant la fonction CHITEST, mais que faire si j'ai une distribution similaire à celles ci-dessus, avec beaucoup de phénotypes observés moins de 5 fois?
Membran
@Membran # 1: C'est une question légèrement différente que les conditions de test exactes de Fisher sur les deux ensembles de totaux marginaux. Cela me semble quelque chose d'une subtilité statistique académique, et je suis statisticien dans le milieu universitaire. (BTW pourriez-vous préciser à quel wiki vous vous référez?) @Membran # 2: Je n'appellerais pas le test exact conditionnel "test exact de Fisher" dans le cas d'une table à sens unique, mais un tel test devrait être possible. aurait pensé plus simple pour les tableaux unidirectionnels, mais je ne trouve pas actuellement de logiciel pour vous aider et je n'ai pas le temps de faire le calcul sans.
2010
5

Les directives habituelles sont que le nombre attendu devrait être supérieur à 5, mais il peut être quelque peu assoupli comme discuté dans l'article suivant:

Tests Campbell, I, Chi-deux et Fisher-Irwin de tableaux deux par deux avec de petits échantillons de recommandations , Statistics in Medicine (2007) 26 (19): 3661–3675.

Voir aussi la page d' accueil d' Ian Campbell .

pchisq.test(..., sim=TRUE)

Dans votre cas, il semble qu'environ 80% des dénombrements attendus soient inférieurs à 5 et 40% inférieurs à 1. Serait-il judicieux d'agréger certains des phénotypes observés?

chl
la source
Merci pour vos suggestions. Logiquement, il n'est pas tout à fait possible de fusionner des phénotypes car chacun d'eux est une combinaison unique de trois paramètres enregistrés. Étant donné que chacun de ces paramètres peut "monter", "descendre" ou rester "inchangé" à la suite d'une mutation, il peut donc y avoir 3 ^ 3 = 27 phénotypes distincts. Dans l'exemple ci-dessus, j'ai supprimé les phénotypes pour lesquels les deux groupes ont marqué "0", il n'y en avait donc que 21. Je vois la prévalence de certains phénotypes mais j'aimerais avoir des preuves statistiques que les distributions de ces phénotypes dans différents groupes de mutants sont similaires (ou non). Je vous remercie!
Membran
1
@Membran Aggregation n'a pas besoin d'être significatif: vous êtes libre de combiner les bacs comme bon vous semble. Un problème subtil, cependant, est que l' agrégation post-facto jette les valeurs p dans le doute; l'agrégation doit être indépendante des données.
whuber