Comprendre le test du chi carré et la distribution du chi carré

13

J'essaie de comprendre la logique derrière le test du chi carré.

Le test du carré est . est ensuite comparé à une distribution Chi-carré pour trouver une valeur p afin de rejeter ou non l'hypothèse nulle. : les observations proviennent de la distribution que nous avons utilisée pour créer nos valeurs attendues. Par exemple, nous pourrions tester si la probabilité d'obtention est donnée par comme nous l'espérons. Nous donc 100 fois et trouvons et . Nous voulons comparer notre résultat à ce qui est attendu ( ). On pourrait aussi bien utiliser une distribution binomiale mais ce n'est pas l'objet de la question… La question est: χ2H0pnH1-nH100pχ2=(obsexp)2expχ2H0headpnH Heads1nH tails100p

Pouvez-vous expliquer pourquoi, dans l'hypothèse nulle, suit une distribution chi carré?(obsexp)2exp

Tout ce que je sais de la distribution du chi carré, c'est que la distribution du chi carré du degré est la somme de la distribution normale standard du carré.kkk

Remi.b
la source
2
Ce n'est pas le cas: c'est une approximation. (Beaucoup) plus à ce sujet apparaît dans le fil de discussion sur stats.stackexchange.com/questions/16921/… .
whuber
Cela peut s'avérer intéressant Karl Pearson et le test du chi carré, (Placket, 1983) {pdf}
Avraham
Une question connexe sur la raison pour laquelle la distribution du chi carré est utilisée pour les tests d'adéquation, mais pas tout à fait en double: stats.stackexchange.com/questions/125312/…
Silverfish

Réponses:

12

On pourrait aussi bien utiliser une distribution binomiale mais ce n'est pas le sujet de la question…

Néanmoins, c'est notre point de départ même pour votre question réelle. Je vais le couvrir de manière quelque peu informelle.

Considérons plus généralement le cas binomial:

YBin(n,p)

Supposons que et sont tels que est bien approximé par une normale avec la même moyenne et la même variance (certaines exigences typiques sont que n'est pas petite, ou que n'est pas petit).npYmin(np,n(1p))np(1p)

Alors sera approximativement . Ici est le nombre de succès.(YE(Y))2/Var(Y)χ12Y

Nous avons et .E(Y)=npVar(Y)=np(1p)

(Dans le cas de test, est connu et est spécifié sous . Nous ne faisons aucune estimation.)npH0

Donc sera approximativement .(Ynp)2/np(1p)χ12

Notez que . Notez également que .(Ynp)2=[(nY)n(1p)]21p+11p=1p(1p)

D'où(Ynp)2np(1p)=(Ynp)2np+(Ynp)2n(1p)=(Ynp)2np+[(nY)n(1p)]2n(1p)=(OSES)2ES+(OFEF)2EF

Ce qui est juste la statistique du chi carré pour le cas binomial.

Ainsi, dans ce cas, la statistique du khi carré devrait avoir la distribution du carré d'une variable aléatoire (approximativement) standard-normale.

Glen_b -Reinstate Monica
la source