Pourquoi le test d'indépendance utilise-t-il la distribution chi carré?

12

Le test d'ajustement de χ2 utilise la statistique suivante :

χ02=i=1n(OiEi)2Ei
Dans le test, en admettant que les conditions sont remplies, on utilise ladistributionχ2-pour calculer la valeur de p qui étant donnée leHH0 est vrai, on observerait une telle valeur dans un échantillon représentatif de la même taille.

Cependant, pour qu'une statistique χ02 suive une distribution χ2 (avec n1 degrés de liberté), il doit être vrai que:

i=1n(OiEi)2Ei=i=1n1Zi2
pournormal indépendant standard(Wikipedia). Les conditions du test sont les suivantes (encore une fois, à partir deWikipedia):Zi
  1. Échantillon représentatif de la population
  2. Grand échantillon
  3. Le nombre de cellules attendu est suffisamment grand
  4. Indépendance entre chaque catégorie

D'après les conditions (1,2), il est clair que nous remplissons les conditions d'inférence de l'échantillon à la population. (3) semble être une hypothèse requise car le nombre discret , qui est au dénominateur, n'entraîne pas une distribution quasi continue pour chaque et s'il n'est pas assez grand il y a une erreur qui peut être corrigée avec Yates 'correction - cela semble provenir du fait qu'une distribution discrète est fondamentalement une distribution continue "plancher", donc le décalage de pour chacun corrige cela.Z i une / 2EiZi1/2

La nécessité de (4) semble être utile plus tard, mais je ne vois pas comment.

Au début, je pensais que est nécessaire pour que la statistique corresponde à la distribution. Cela m'a conduit à l'hypothèse douteuse que , ce qui était effectivement faux. En fait, il ressort clairement de la réduction de dimension pour les deux côtés de l'égalité de à que cela ne peut pas être le cas. Oi-EiN(0,Zi=OiEiEinn-1OiEiN(0,Ei)nn1

Il est devenu évident, grâce aux explications de Whuber, que n'a pas besoin d'être égal à chaque terme parce que (notez la réduction du nombre de variables additionnées) pour les variables aléatoires normales normales qui sontO i - E iZi χ20=n-1i=1Z2iZiOiEiEiχ02=i=1n1Zi2Zi fonctionnellement indépendantes.

Ma question est alors de savoir comment suivre la ? Quels types de combinaisons de chacun des termes aboutissent à des normales standard au carré ? Cela nécessite l'utilisation du CLT, apparemment (et cela a du sens), mais comment? En d'autres termes , à quoi chaque égal (ou approximativement égal)? χ 2 ( O i - E i ) 2χ02χ2 Z 2 i Zi(OiEi)2EiZi2Zi

VF1
la source
1
Je suis curieux de savoir où vous lisez que quiconque suppose la dernière chose que vous avez déclarée ( ). Cela n'est pas nécessaire: la statistique peut avoir une (au moins à une très bonne approximation) sans qu'aucun de ces résidus normalisés ait une distribution normale. La question que vous semblez poser est de savoir comment ces hypothèses justifient-elles de renvoyer la statistique à une ? En soi, ils ne le font pas. Pour une discussion sur ce qui peut mal tourner, veuillez consulter mon article sur stats.stackexchange.com/a/17148 . χ2χ2χ2χ2OiEiN(0,Ei)χ2χ2χ2χ2
blanc
1
De l'égalité de deux sommes de carrés, vous ne pouvez pas conclure que les racines carrées sont égales terme par terme! Parce que c'est le cas pour les simples nombres, c'est sûrement le cas pour les variables aléatoires aussi.
whuber
1
Pour rendre cela concret, supposons que sont distribués indépendamment avec χ distributions ayant des degrés de liberté ν 1 , ν 2 , , ν n et que ν 1 + ν 2 + + ν n = n - 1 mais ν i1 pour tout i(Wi),i=1,,nχν1,ν2,,νnν1+ν2++νn=n1νi1i. Alors, bien qu'aucun des soit normal, a une . Wje χ 2 ( n - 1 )je=1nWje2χ2(n-1)
whuber
1
Si par "normal standard au carré" vous voulez dire "somme des normales standard au carré indépendantes", c'est la question que je crois que vous vouliez vraiment poser au départ :-). Et au final, la plupart des analyses de la situation invoquent en effet le théorème de la limite centrale pour prouver que les résidus normalisés sont asymptotiquement normaux (mais pas tout à fait indépendants, c'est pourquoi les degrés de liberté sont et non ). nn-1n
whuber
1
+1 pour ce que j'anticipe sera bientôt une très bonne question. Le premier problème est que le test d' indépendance n'utilise pas la statistique revendiquée. La statistique donnée au départ est unidimensionnelle (une somme sur catégories), tandis qu'un test d'indépendance nécessite plus d'une variable. Veuillez modifier pour faire correspondre le nom du test et la statistique. n
Glen_b -Reinstate Monica

Réponses:

6

Il s'agit de la distribution de Poisson. Si est Poisson avec la moyenne , alors la variance de est également. Cela signifie que est une entité semblable à . Par le CLT, le Poisson tend vers la normalité lorsque la moyenne devient grande, c'est là que le chi carré entre en jeu. Oui, c'est un test asymptotique.λ X λ ( X - λ ) 2XλXλ z2

(Xλ)2λ
z2

Les degrés de liberté proviennent du théorème de Cochran. Fondamentalement, Cochran explique comment le chi carré est transformé (ou reste inchangé) soumis à une transformation linéaire dans les scores .z2

izi2=ZIZ

en notation matricielle. Si au lieu de calculer la somme des carrés habituelle, vous Compute pour une matrice Q, vous obtenez toujours une quantité avec aa distribution chi-carré, mais les degrés de liberté sont maintenant au rang de . Il y a plus de conditions sur la matrice Q, mais c'est l'essentiel.Q

ZQZ
Q

Si vous jouez avec une notation matricielle, vous pouvez exprimer sous une forme quadratique. Cochran suppose l'indépendance des variables normales d'origine, c'est pourquoi les colonnes de votre table de dénombrement doivent également être indépendantes.

i(ziz¯)2
Placidia
la source
Désolé, mais vous m'avez définitivement perdu à "Si à la place, vous faites ..."
VF1
@ VF1, j'ai fait un changement, donc j'espère que c'est plus clair. Le théorème de Cochrane est la réponse à votre question de savoir quand une somme de carrés contenant des normales a une distribution chi carré.
Placidia
1
OK, je vais y jeter un œil. Je laisse la question ouverte, au cas où quelqu'un d'autre aurait quelque chose à ajouter.
VF1
1
Normalement, la taille de l'échantillon est fixe. Cela signifie qu'il est impossible qu'une des entrées puisse suivre une distribution de Poisson. L'appel à une distribution de Poisson semble donc être juste une autre approximation - et semble nous laisser là où nous avons commencé.
whuber
1

Selon le manuel "Statistiques d'introduction avec randomisation et simulation", section 3.3.2 (manuel disponible gratuitement sur OpenIntro ), la statistique de test essaie d'accumuler les écarts entre l'observé et l'attendu. Et les écarts sont en effet exprimés à travers le termeχ2

Zje=Oje-EjeEje

qui provient en fait de .

Oje-Eje(StunenunerErrorOFTheObserve)

Le manuel poursuit en disant que est mieux estimé par , donc le terme devient . Le manuel n'explique pas vraiment pourquoi cette substitution est acceptable, et j'aimerais aussi le découvrir.(StunenunerErrorOFTheObserve) Zi= O i - E iEjeZje=Oje-EjeEje

Quoi qu'il en soit, vous pouvez créer une statistique de test du formulaire

Z=|Z1|+|Z2|+|Z3|+...

mais il est préférable de mettre tous les termes au carré, car vous obtenez immédiatement des valeurs positives et les valeurs plus élevées ressortent davantage après la quadrature. Vous obtenez donc ce qui suit:

χ2=Z12+Z22+Z32+...

Mais je ne sais pas non plus pourquoi cette somme devrait suivre la , ni quel est le lien avec la définition de la (somme des carrés des variables indépendantes normales normales).χ 2χ2χ2

EDIT: J'apprends toujours des statistiques et je ne pense toujours pas comprendre correctement le test . J'espère que d'autres pourront m'éclairer aussi.χ2

CamilB
la source