À quel niveau un mathématiquement identique à un test de proportions?

15

CONTEXTE: Sautez en toute sécurité - c'est ici pour référence, et pour légitimer la question.

L'ouverture de cet article se lit comme suit:

"Le célèbre test de contingence chi carré de Karl Pearson est dérivé d'une autre statistique, appelée statistique z, basée sur la distribution normale. Les versions les plus simples de peuvent être mathématiquement identiques aux tests z équivalents. Les tests produisent le même résultat dans toutes les circonstances. À toutes fins utiles, «chi carré» pourrait être appelé «carré z». Les valeurs critiques de pour un degré de liberté sont le carré des valeurs critiques correspondantes de z. "χ2χ2

Cela a été affirmé plusieurs fois dans CV ( ici , ici , ici et d'autres).

Et en effet nous pouvons prouver que est équivalent à avec :χ1df2X2XN(0,1)

Disons que et que et trouvons la densité de en utilisant la méthode :XN(0,1)Y=X2Ycdf

p(Yy)=p(X2y)=p(yxy) . Le problème est que nous ne pouvons pas intégrer sous une forme proche la densité de la distribution normale. Mais nous pouvons l'exprimer:

FX(y)=FX(y)FX(y).
Prenant le dérivé:

fX(y)=FX(y)12y+FX(y)12y.

Puisque les valeurs du pdf normal pdfsont symétriques:

fX(y)=FX(y)1y . Égaliser ceci au pdf du normal (maintenant le x dans le pdf sera y à brancher dans la partie ex22 du pdf normal pF); et en vous rappelant d'inclure 1y à la fin:

fX(y)=FX(y)1y=12πey21y=12πey2y121

Comparez au pdf du chi square:

fX(x)=12ν/2Γ(ν2)ex2xν21

Puisque , pour df, nous avons dérivé exactement le du chi carré. 1pdfΓ(1/2)=π1pdf

De plus, si nous appelons la fonction prop.test()dans R, nous invoquons le même que si nous décidions .χ2chisq.test()

LA QUESTION:

Je reçois donc tous ces points, mais je ne sais toujours pas comment ils s'appliquent à la mise en œuvre réelle de ces deux tests pour deux raisons:

  1. Un test z n'est pas carré.

  2. Les statistiques de test réelles sont complètement différentes:

La valeur de la statistique de test pour unχ2 est:

χ2=i=1n(Oje-Eje)2Eje=Nje=1npje(Oje/N-pjepje)2

χ 2 O i i N E i N p i i i p i nχ2 = statistique de test cumulative de Pearson, qui approche asymptotiquement une . = le nombre d'observations de type ; = nombre total d'observations; = = la fréquence (théorique) attendue de type , affirmée par l'hypothèse nulle que la fraction de type dans la population est ; = le nombre de cellules du tableau.χ2OjejeNEjeNpjejejepjen

D'un autre côté, la statistique de test pour un test est:z

Z=X1n1-X2n2p(1-p)(1/n1+1/n2) avec , où et sont le nombre de "succès", sur le nombre de sujets dans chacun des niveaux de la catégorie variables, c'est-à-dire et .p=x1+x2n1+n2x1x2n1n2

Cette formule semble s'appuyer sur la distribution binomiale.

Ces deux statistiques de tests sont clairement différentes et donnent des résultats différents pour les statistiques de test réelles, ainsi que pour les valeurs de p : 5.8481pour le et pour le z-test, où ( merci, @ mark999). La valeur p pour le est , tandis que pour le test z est . La différence expliquée par : (merci @amoeba).χ22.41832.41832=5.84817χ20.015590.00770.01559/2=0.007795

Alors à quel niveau disons-nous qu'ils sont une seule et même chose?

Antoni Parellada
la source
Mais ce sont deux tests identiques. Z au carré est la statistique du chi carré. Laissez-vous avoir une table de fréquence 2x2 où les colonnes sont les deux groupes et les lignes sont "succès" et "échec". Ensuite, les soi-disant fréquences attendues du test du chi carré dans une colonne donnée sont le profil de colonne (groupe) moyen pondéré (par les N des groupes ) multiplié par le N. de ce groupe. chacun des profils de deux groupes à partir de ce profil de groupe moyen, - ce qui équivaut à tester la différence de profils des groupes les uns des autres, le test z des proportions.
ttnphns
Dans l'exemple du dernier hyperlien, le est presque le carré de la statistique du test z, mais pas tout à fait, et les valeurs de p sont différentes. De plus, lorsque vous regardez les formules des statistiques de repos ci-dessus, est-il vraiment immédiat qu'elles soient identiques? Ou même l'un au carré de l'autre? χ2
Antoni Parellada
2
Dans chisq.test(), avez-vous essayé d'utiliser correct=FALSE?
mark999
1
En effet, Antoni. Les deux tests existent avec ou sans Yates. Se pourrait-il que vous calculiez l'un avec mais l'autre sans?
ttnphns
1
Je vous remercie! Vous aviez (comme on pouvait s'y attendre) raison. Lorsque la correction Yates est désactivée, l'un n'est que le carré de l'autre. J'ai édité la question en conséquence, bien qu'un peu rapide. Je voudrais toujours prouver algébriquement que les deux statistiques de test sont les mêmes (ou l'une au carré de l'autre), et comprendre pourquoi les valeurs de p sont différentes.
Antoni Parellada,

Réponses:

12

Ayons un tableau de fréquence 2x2 où les colonnes sont deux groupes de répondants et les lignes sont les deux réponses "Oui" et "Non". Et nous avons transformé les fréquences en proportions au sein du groupe, c'est-à-dire en profils verticaux :

      Gr1   Gr2  Total
Yes   p1    p2     p
No    q1    q2     q
      --------------
     100%  100%   100%
      n1    n2     N

L'habituel (pas Yates corrigé) de ce tableau, après avoir substitué des proportions au lieu de fréquences dans sa formule, ressemble à ceci:χ2

n1[(p1p)2p+(q1q)2q]+n2[(p2p)2p+(q2q)2q]=n1(p1p)2+n2(p2p)2pq.

N'oubliez pas que , l'élément du profil moyen pondéré des deux profils et , et branchez-le dans la formule, pour obtenirp=n1p1+n2p2n1+n2(p1,q1)(p2,q2)

...=(p1-p2)2(n12n2+n1n22)pqN2

Divisez le numérateur et le dénominateur par et obtenez( p 1 - p 2 ) 2(n12n2+n1n22)

(p1-p2)2pq(1/n1+1/n2)=Z2,

la statistique z au carré du test z des proportions pour la réponse "Oui".

Ainsi, la 2x2statistique d'homogénéité du chi carré (et test) est équivalente au test z de deux proportions. Les fréquences dites attendues calculées dans le test du chi carré dans une colonne donnée sont le nprofil vertical moyen pondéré (par le groupe ) (c'est-à-dire le profil du "groupe moyen") multiplié par celui de ce groupe n. Ainsi, il ressort que le chi carré teste l'écart de chacun des profils de deux groupes par rapport à ce profil de groupe moyen, - ce qui équivaut à tester la différence de profils des groupes les uns des autres, qui est le z-test des proportions.

Il s'agit d'une démonstration d'un lien entre une mesure d'association de variables (chi carré) et une mesure de différence de groupe (statistique z-test). Les associations d'attributs et les différences de groupe sont (souvent) les deux facettes de la même chose.


(Montrant l'expansion dans la première ligne ci-dessus, à la demande de @ Antoni):

n1[(p1p)2p+(q1q)2q]+n2[(p2p)2p+(q2q)2q]=n1(p1p)2qpq+n1(q1q)2ppq+n2(p2p)2qpq+n2(q2q)2ppq=n1(p1p)2(1p)+n1(1p11+p)2p+n2(p2p)2(1p)+n2(1p21+p)2ppq=n1(p1p)2(1p)+n1(pp1)2p+n2(p2p)2(1p)+n2(pp2)2ppq=[n1(p1p)2][(1p)+p]+[n2(p2p)2][(1p)+p]pq=n1(p1p)2+n2(p2p)2pq.

ttnphns
la source
@ttnphs C'est super! Toute chance que vous pourriez clarifier l'étape intermédiaire dans la première formule de l'équation ( ) - je ne vois pas comment les disparaissent après le signe égal. χ2q
Antoni Parellada
@ttnphs Lorsque je le développe, j'obtiensn1[(p1p)2p+(q1q)2q]+n2[(p2p)2p+(q2q)2q]=n1(q(p2+p(2p12q1+p12)+p(q2+q12)pq)+n2(q(p2+p(2p22q2)+p22)+p(q2+q22)pq)
Antoni Parellada
@ttnphs ... Ou une référence donc c'est moins de travail de taper le latex ... Et j'accepterai rapidement et joyeusement la réponse ...
Antoni Parellada
@Antoni, expansion insérée.
ttnphns
@ttnphns Awesome!
Antoni Parellada