Le test d'ajustement de utilise la statistique suivante :
Cependant, pour qu'une statistique suive une distribution (avec degrés de liberté), il doit être vrai que:
- Échantillon représentatif de la population
- Grand échantillon
- Le nombre de cellules attendu est suffisamment grand
- Indépendance entre chaque catégorie
D'après les conditions (1,2), il est clair que nous remplissons les conditions d'inférence de l'échantillon à la population. (3) semble être une hypothèse requise car le nombre discret , qui est au dénominateur, n'entraîne pas une distribution quasi continue pour chaque et s'il n'est pas assez grand il y a une erreur qui peut être corrigée avec Yates 'correction - cela semble provenir du fait qu'une distribution discrète est fondamentalement une distribution continue "plancher", donc le décalage de pour chacun corrige cela.Z i une / 2
La nécessité de (4) semble être utile plus tard, mais je ne vois pas comment.
Au début, je pensais que est nécessaire pour que la statistique corresponde à la distribution. Cela m'a conduit à l'hypothèse douteuse que , ce qui était effectivement faux. En fait, il ressort clairement de la réduction de dimension pour les deux côtés de l'égalité de à que cela ne peut pas être le cas. Oi-Ei∼N(0,√nn-1
Il est devenu évident, grâce aux explications de Whuber, que n'a pas besoin d'être égal à chaque terme parce que (notez la réduction du nombre de variables additionnées) pour les variables aléatoires normales normales qui sontO i - E i χ20=∑n-1i=1Z2iZi fonctionnellement indépendantes.
Ma question est alors de savoir comment suivre la ? Quels types de combinaisons de chacun des termes aboutissent à des normales standard au carré ? Cela nécessite l'utilisation du CLT, apparemment (et cela a du sens), mais comment? En d'autres termes , à quoi chaque égal (ou approximativement égal)? χ 2 ( O i - E i ) 2 Z 2 i Zi
Réponses:
Il s'agit de la distribution de Poisson. Si est Poisson avec la moyenne , alors la variance de est également. Cela signifie que est une entité semblable à . Par le CLT, le Poisson tend vers la normalité lorsque la moyenne devient grande, c'est là que le chi carré entre en jeu. Oui, c'est un test asymptotique.λ X λ ( X - λ ) 2X λ X λ z2
Les degrés de liberté proviennent du théorème de Cochran. Fondamentalement, Cochran explique comment le chi carré est transformé (ou reste inchangé) soumis à une transformation linéaire dans les scores .z2
en notation matricielle. Si au lieu de calculer la somme des carrés habituelle, vous Compute pour une matrice Q, vous obtenez toujours une quantité avec aa distribution chi-carré, mais les degrés de liberté sont maintenant au rang de . Il y a plus de conditions sur la matrice Q, mais c'est l'essentiel.Q
Si vous jouez avec une notation matricielle, vous pouvez exprimer sous une forme quadratique. Cochran suppose l'indépendance des variables normales d'origine, c'est pourquoi les colonnes de votre table de dénombrement doivent également être indépendantes.
la source
Selon le manuel "Statistiques d'introduction avec randomisation et simulation", section 3.3.2 (manuel disponible gratuitement sur OpenIntro ), la statistique de test essaie d'accumuler les écarts entre l'observé et l'attendu. Et les écarts sont en effet exprimés à travers le termeχ2
qui provient en fait de .
Le manuel poursuit en disant que est mieux estimé par , donc le terme devient . Le manuel n'explique pas vraiment pourquoi cette substitution est acceptable, et j'aimerais aussi le découvrir.√( St a n dun r dEr r o r O fTh e O b s e r v e d) Zi= O i - E iEje--√ Zje= Oje- EjeEje√
Quoi qu'il en soit, vous pouvez créer une statistique de test du formulaire
mais il est préférable de mettre tous les termes au carré, car vous obtenez immédiatement des valeurs positives et les valeurs plus élevées ressortent davantage après la quadrature. Vous obtenez donc ce qui suit:
Mais je ne sais pas non plus pourquoi cette somme devrait suivre la , ni quel est le lien avec la définition de la (somme des carrés des variables indépendantes normales normales).χ 2χ2 χ2
EDIT: J'apprends toujours des statistiques et je ne pense toujours pas comprendre correctement le test . J'espère que d'autres pourront m'éclairer aussi.χ2
la source