Comment effectuer plusieurs tests chi carré post-hoc sur une table 2 X 3?

9

Mon ensemble de données comprend la mortalité totale ou la survie d'un organisme sur trois types de sites: côtier, médian et extracôtier. Les nombres dans le tableau ci-dessous représentent le nombre de sites.

              100% Mortality            100% Survival
Inshore             30                       31 
Midchannel          10                       20 
Offshore             1                       10

Je voudrais savoir si le nombre de sites où la mortalité à 100% s'est produite est significatif en fonction du type de site. Si je lance un chi carré 2 x 3, j'obtiens un résultat significatif. Existe-t-il une comparaison post-hoc par paire que je peux exécuter ou dois-je réellement utiliser une ANOVA logistique ou une régression avec distribution binomiale? Merci!

chl
la source

Réponses:

7

Un tableau de contingence doit contenir toutes les catégories mutuellement exclusives sur les deux axes. Dans les zones côtières / Midchannel / Offshore, cela semble bien, sauf si «moins de 100% de mortalité» signifie «100% de survie» dans ce contexte biologique, vous devrez peut-être construire des tableaux qui tiennent compte de tous les cas observés ou expliquer pourquoi vous limitez votre analyse à l'extrême. extrémités de l'échantillon.

Comme 100% de survie signifie 0% de mortalité, vous pourriez avoir un tableau avec des colonnes 100% = mortalité / 100%> mortalité> 0% / mortalité = 0%. Dans ce cas, vous ne comparez plus les pourcentages, mais comparez les mesures de mortalité ordinales dans trois catégories de types de sites. (Qu'en est-il de l'utilisation des valeurs de pourcentage d'origine au lieu de catégories?) Une version du test de Kruskal-Wallis peut être appropriée ici qui prend en compte les liens de manière appropriée (peut-être un test de permutation).

Il existe des tests post hoc établis pour le test de Kruskal-Wallis: 1 , 2, 3 . (Une approche de rééchantillonnage peut aider à lutter contre les liens.)

La régression logistique et la régression binomiale peuvent être encore meilleures car elles vous donnent non seulement des valeurs p, mais aussi des estimations utiles et des intervalles de confiance des tailles d'effet. Cependant, pour mettre en place ces modèles, plus de détails seraient nécessaires concernant les sites 100%> mortalité> 0%.

GaBorgulya
la source
4

Je vais supposer que "100% de survie" signifie que vos sites ne contiennent qu'un seul organisme. donc 30 signifie que 30 organismes sont morts et 31 signifie que 31 organismes ne sont pas morts. Sur cette base, le chi carré devrait être correct, mais il ne dira que les hypothèses qui ne sont pas prises en charge par les données - il ne vous dira pas si deux hypothèses raisonnables sont meilleures ou non. Je présente une analyse de probabilité qui extrait ces informations - elle est d'accord avec le test du chi carré, mais elle vous donne plus d'informations que le test du chi carré, et une meilleure façon de présenter les résultats.

Le modèle est un modèle de bernouli pour l'indicateur de «décès», ( i désigne la cellule du tableau 2 × 3 et j désigne l'unité individuelle au sein de la cellule) .YijBin(1,θij)i2×3j

Deux hypothèses globales sous-tendent le test du chi carré:

  1. au sein d'une cellule donnée du tableau, les sont tous égaux, c'est-à-dire θ i j = θ i k = θ iθijθij=θik=θi
  2. les sont statistiquement indépendants, étant donné θ i . Cela signifie que les paramètres de probabilité vous disent tout sur Y i j - toutes les autres informations ne sont pas pertinentes si vous connaissez θ iYijθiYijθi

Notons comme la somme de Y i j (donc X 1 = 30 , X 2 = 10 , X 3 = 1 ) et soit N i la taille du groupe (donc N 1 = 61 , N 2 = 30 , N 3 = 11 ). Nous avons maintenant une hypothèse à tester:XjeOuijejX1=30,X2=dix,X3=1NjeN1=61,N2=30,N3=11

HUNE:θ1=θ2,θ1=θ3,θ2=θ3

Mais quelles sont les alternatives? Je dirais les autres combinaisons possibles égales ou non égales.

H B 2 : θ 1θ 2 , θ 1 = θ 3 , θ 2θ 3 H B 3 : θ 1 = θ 2 , θ 1θ 3 , θ 2

HB1:θ1θ2,θ1θ3,θ2=θ3
HB2:θ1θ2,θ1=θ3,θ2θ3
HB3:θ1=θ2,θ1θ3,θ2θ3
HC:θ1θ2,θ1θ3,θ2θ3

HUNEje0

P(X1,X2,X3|N1,N2,N3,HUNE,je0)=01P(X1,X2,X3,θ|N1,N2,N3,HUNE,je0)θ
=(N1X1)(N2X2)(N3X3)01θX1+X2+X3(1-θ)N1+N2+N3-X1-X2-X3θ
=(N1X1)(N2X2)(N3X3)(N1+N2+N3+1)(N1+N2+N3X1+X2+X3)

HB1

P(X1,X2,X3|N1,N2,N3,HB1,je0)=01P(X1,X2,X3,θ1θ2|N1,N2,N3,HB1,je0)θ1θ2
=(N2X2)(N3X3)(N1+1)(N2+N3+1)(N2+N3X2+X3)

HUNEvsHB14HUNEHB14

Hypothesjesprobunebjeljety(HUNE|)0,018982265(HB1|)0,004790669(HB2|)0,051620022(HB3|)0,484155874(HC|)0,440451171

UNE

probabilitéislogique
la source
1

Voici le code pour effectuer les tests du chi carré et générer une variété de statistiques de test. Cependant, les tests statistiques d'association des marges du tableau sont ici inutiles; la réponse est évidente. Personne ne fait de test statistique pour voir si l'été est plus chaud que l'hiver.

Chompy<-matrix(c(30,10,1,31,20,10), 3, 2)
Chompy
chisq.test(Chompy)
chisq.test(Chompy, simulate.p.value = TRUE, B = 10000)
chompy2<-data.frame(matrix(c(30,10,1,31,20,10,1,2,1,2,1,2,1,2,3,1,2,3), 6,3))
chompy2
chompy2$X2<-factor(chompy2$X2) 
chompy2$X3<-factor(chompy2$X3)
summary(fit1<-glm(X1~X2+X3, data=chompy2, family=poisson))
summary(fit2<-glm(X1~X2*X3, data=chompy2, family=poisson)) #oversaturated
summary(fit3<-glm(X1~1, data=chompy2, family=poisson)) #null
anova(fit3,fit1)
library(lmtest)
waldtest(fit1)
waldtest(fit2) #oversaturated
kruskal.test(X1~X2+X3, data=chompy2)
kruskal.test(X1~X2*X3, data=chompy2)
Patrick McCann
la source
3
Il serait intéressant pour le lecteur (et l'OP) de fournir des détails sur les différentes syntaxes R (et les tests sous-jacents) que vous avez données, et en particulier sur la façon dont un test de Kruskal-Wallis se compare à un modèle log-linéaire.
chl
Vous pouvez le voir en copiant et en collant le code dans la console R.
Patrick McCann
1
Sûr. Les réponses viennent d'eux-mêmes en exécutant le code, bien sûr.
chl
0

Je pense que vous pouvez utiliser les «intervalles de confiance simultanés» pour effectuer des comparaisons multiples. La référence est Agresti et al. 2008 Intervalles de confiance simultanés pour comparer les paramètres binomiaux. Biométrie 64 1270-1275.

Vous pouvez trouver le code R correspondant sur http://www.stat.ufl.edu/~aa/cda/software.html

Tu.2
la source