CONTEXTE: Sautez en toute sécurité - c'est ici pour référence, et pour légitimer la question.
L'ouverture de cet article se lit comme suit:
"Le célèbre test de contingence chi carré de Karl Pearson est dérivé d'une autre statistique, appelée statistique z, basée sur la distribution normale. Les versions les plus simples de peuvent être mathématiquement identiques aux tests z équivalents. Les tests produisent le même résultat dans toutes les circonstances. À toutes fins utiles, «chi carré» pourrait être appelé «carré z». Les valeurs critiques de pour un degré de liberté sont le carré des valeurs critiques correspondantes de z. "
Cela a été affirmé plusieurs fois dans CV ( ici , ici , ici et d'autres).
Et en effet nous pouvons prouver que est équivalent à avec :
Disons que et que et trouvons la densité de en utilisant la méthode :
. Le problème est que nous ne pouvons pas intégrer sous une forme proche la densité de la distribution normale. Mais nous pouvons l'exprimer:
Puisque les valeurs du pdf normal sont symétriques:
. Égaliser ceci au du normal (maintenant le dans le sera à brancher dans la partie du pdf normal ); et en vous rappelant d'inclure à la fin:
Comparez au pdf du chi square:
Puisque , pour df, nous avons dérivé exactement le du chi carré. 1pdf
De plus, si nous appelons la fonction prop.test()
dans R, nous invoquons le même que si nous décidions .chisq.test()
LA QUESTION:
Je reçois donc tous ces points, mais je ne sais toujours pas comment ils s'appliquent à la mise en œuvre réelle de ces deux tests pour deux raisons:
Un test z n'est pas carré.
Les statistiques de test réelles sont complètement différentes:
La valeur de la statistique de test pour un est:
où
χ 2 O i i N E i N p i i i p i n = statistique de test cumulative de Pearson, qui approche asymptotiquement une . = le nombre d'observations de type ; = nombre total d'observations; = = la fréquence (théorique) attendue de type , affirmée par l'hypothèse nulle que la fraction de type dans la population est ; = le nombre de cellules du tableau.
D'un autre côté, la statistique de test pour un test est:
avec , où et sont le nombre de "succès", sur le nombre de sujets dans chacun des niveaux de la catégorie variables, c'est-à-dire et .
Cette formule semble s'appuyer sur la distribution binomiale.
Ces deux statistiques de tests sont clairement différentes et donnent des résultats différents pour les statistiques de test réelles, ainsi que pour les valeurs de p : 5.8481
pour le et pour le z-test, où ( merci, @ mark999). La valeur p pour le est , tandis que pour le test z est . La différence expliquée par : (merci @amoeba).2.4183
0.01559
0.0077
Alors à quel niveau disons-nous qu'ils sont une seule et même chose?
la source
chisq.test()
, avez-vous essayé d'utilisercorrect=FALSE
?Réponses:
Ayons un tableau de fréquence 2x2 où les colonnes sont deux groupes de répondants et les lignes sont les deux réponses "Oui" et "Non". Et nous avons transformé les fréquences en proportions au sein du groupe, c'est-à-dire en profils verticaux :
L'habituel (pas Yates corrigé) de ce tableau, après avoir substitué des proportions au lieu de fréquences dans sa formule, ressemble à ceci:χ2
N'oubliez pas que , l'élément du profil moyen pondéré des deux profils et , et branchez-le dans la formule, pour obtenirp=n1p1+n2p2n1+n2
(p1,q1)
(p2,q2)
Divisez le numérateur et le dénominateur par et obtenez( p 1 - p 2 ) 2( n21n2+ n1n22)
la statistique z au carré du test z des proportions pour la réponse "Oui".
Ainsi, la
2x2
statistique d'homogénéité du chi carré (et test) est équivalente au test z de deux proportions. Les fréquences dites attendues calculées dans le test du chi carré dans une colonne donnée sont len
profil vertical moyen pondéré (par le groupe ) (c'est-à-dire le profil du "groupe moyen") multiplié par celui de ce groupen
. Ainsi, il ressort que le chi carré teste l'écart de chacun des profils de deux groupes par rapport à ce profil de groupe moyen, - ce qui équivaut à tester la différence de profils des groupes les uns des autres, qui est le z-test des proportions.Il s'agit d'une démonstration d'un lien entre une mesure d'association de variables (chi carré) et une mesure de différence de groupe (statistique z-test). Les associations d'attributs et les différences de groupe sont (souvent) les deux facettes de la même chose.
(Montrant l'expansion dans la première ligne ci-dessus, à la demande de @ Antoni):
la source