Dans le test , quelle est la base de l'utilisation de la racine carrée des dénombrements attendus comme écarts-types (c.-à-d. Les dénombrements attendus comme variances) de chacune des distributions normales? La seule chose que j'ai pu trouver en discutant du tout est http://www.physics.csbsju.edu/stats/chi-square.html , et il ne fait que mentionner les distributions de Poisson.
Comme illustration simple de ma confusion, que se passerait-il si nous testions si deux processus sont significativement différents, l'un qui génère 500 As et 500 Bs avec une très petite variance, et l'autre qui génère 550 As et 450 Bs avec une très petite variance (générant rarement 551 As et 449 Bs)? La variance ici n'est-elle pas clairement non seulement la valeur attendue?
(Je ne suis pas statisticien, donc je cherche vraiment une réponse accessible au non-spécialiste.)
Réponses:
La forme générale de nombreuses statistiques de test est
Dans le cas d'une variable normale, l'erreur standard est basée soit sur la variance connue de la population (z-stats), soit sur l'estimation de l'échantillon (t-stats). Avec le binôme, l'erreur standard est basée sur la proportion (proportion hypothétique pour les tests).
Dans un tableau de contingence, le compte dans chaque cellule peut être considéré comme provenant d'une distribution de Poisson avec une moyenne égale à la valeur attendue (sous la valeur nulle). La variance de la distribution de Poisson est égale à la moyenne, nous utilisons donc également la valeur attendue pour le calcul de l'erreur standard. J'ai vu une statistique qui utilise plutôt l'observé, mais elle a moins de justification théorique et ne converge pas aussi bien vers la distributionχ2 .
la source
Prenons le cas le plus simple pour essayer de fournir le plus d'intuition. Soit un échantillon iid d'une distribution discrète avec k résultats. Soit π 1 , … , π k les probabilités de chaque résultat particulier. Nous nous intéressons à la distribution (asymptotique) de la statistique du chi carré X 2 = k ∑ i = 1 ( S i - n π i ) 2X1,X2,…,Xn k π1,…,πk
Ici n π i est le nombre attendu de dénombrements du i ème résultat.
Une heuristique suggestive
Définissez , de sorte queX2=∑iU 2 i =‖U‖ 2 2 oùU=(U1,…,Uk).Ui=(Si−nπi)/nπi−−−√ X2=∑iU2i=∥U∥22 U=(U1,…,Uk)
Puisque est B i n ( n , π i ) , alors par le théorème de la limite centrale , T i = U iSi Bin(n,πi)
conséquent, nous avons aussi cela, U i d → N ( 0 , 1 - π i ) .
Maintenant, si les étaient (asymptotiquement) indépendants (ce qu'ils ne sont pas), alors nous pourrions faire valoir que ∑ i T 2 iTi ∑iT2i était asymptotiquement distribué. Mais, notez que T k est une fonction déterministe de ( T 1 , … , T k - 1 ) et que les variables T i ne peuvent donc pas être indépendantes.χ2k Tk (T1,…,Tk−1) Ti
Par conséquent, nous devons prendre en compte la covariance entre eux d'une manière ou d'une autre. Il s'avère que la façon "correcte" de le faire est d'utiliser à la place le , et la covariance entre les composants de U change également la distribution asymptotique de ce que nous aurions pu penser être χ 2 k à ce qui est, en fait, a χ 2 k - 1 .Ui U χ2k χ2k−1
Quelques détails à ce sujet suivent.
Un traitement plus rigoureux
Il n'est pas difficile de vérifier qu'en fait, pouri≠j.Cov(Ui,Uj)=−πiπj−−−−√ i≠j
Donc, la covariance de est A = I - √U
où √
Maintenant, le multivariée théorème central limite , le vecteur a une distribution normale à plusieurs variables asymptotique avec une moyenne 0 et covariance A .U 0 A
Donc, a la même distribution asymptotique que A Z , par conséquent, la même distribution asymptotique de X 2 = U T U est la même que la distribution de Z T A T A Z = Z T A Z par le théorème de cartographie continue .U AZ X2=UTU ZTATAZ=ZTAZ
Mais, est symétrique et idempotent, donc ( a ) il a des vecteurs propres orthogonaux, ( b ) toutes ses valeurs propres sont 0 ou 1, et ( c ) la multiplicité de la valeur propre de 1 est r a n k ( A ) . Cela signifie que A peut être décomposé en A = Q D Q T où Q est orthogonal et D est une matrice diagonale avec r a n k ( A ) sur la diagonale et les entrées diagonales restantes étant nulles.A rank(A) A A=QDQT Q D rank(A)
Ainsi, doit être χ 2 k - 1 distribué puisque A a le rang k - 1 dans notre cas.ZTAZ χ2k−1 A k−1
Autres connexions
La statistique du chi carré est également étroitement liée aux statistiques du rapport de vraisemblance. En effet, il s'agit d'une statistique de score de Rao et peut être considérée comme une approximation de la série Taylor de la statistique du rapport de vraisemblance.
Les références
C'est mon propre développement basé sur l'expérience, mais évidemment influencé par des textes classiques. Les bons endroits où chercher pour en savoir plus sont
la source