Pourquoi les tests du chi carré utilisent-ils le nombre attendu comme variance?

18

Dans le test χ2 , quelle est la base de l'utilisation de la racine carrée des dénombrements attendus comme écarts-types (c.-à-d. Les dénombrements attendus comme variances) de chacune des distributions normales? La seule chose que j'ai pu trouver en discutant du tout est http://www.physics.csbsju.edu/stats/chi-square.html , et il ne fait que mentionner les distributions de Poisson.

Comme illustration simple de ma confusion, que se passerait-il si nous testions si deux processus sont significativement différents, l'un qui génère 500 As et 500 Bs avec une très petite variance, et l'autre qui génère 550 As et 450 Bs avec une très petite variance (générant rarement 551 As et 449 Bs)? La variance ici n'est-elle pas clairement non seulement la valeur attendue?

(Je ne suis pas statisticien, donc je cherche vraiment une réponse accessible au non-spécialiste.)

Yang
la source
Cela a probablement quelque chose à voir avec le fait que la variance d'une variable aléatoire χk2 est de 2k et aussi avec le fait que la statistique doit être multipliée par 2 pour avoir la distribution correcte (comme dans le test du rapport de vraisemblance). Peut-être que quelqu'un le sait plus formellement.
Macro

Réponses:

16

La forme générale de nombreuses statistiques de test est

observedexpectedstandarderror

Dans le cas d'une variable normale, l'erreur standard est basée soit sur la variance connue de la population (z-stats), soit sur l'estimation de l'échantillon (t-stats). Avec le binôme, l'erreur standard est basée sur la proportion (proportion hypothétique pour les tests).

Dans un tableau de contingence, le compte dans chaque cellule peut être considéré comme provenant d'une distribution de Poisson avec une moyenne égale à la valeur attendue (sous la valeur nulle). La variance de la distribution de Poisson est égale à la moyenne, nous utilisons donc également la valeur attendue pour le calcul de l'erreur standard. J'ai vu une statistique qui utilise plutôt l'observé, mais elle a moins de justification théorique et ne converge pas aussi bien vers la distribution χ2 .

Greg Snow
la source
1
Je suis bloqué sur la connexion avec le Poisson / comprendre pourquoi chaque cellule peut être considérée comme provenant d'un Poisson. Je connais la moyenne / variance de Poissons, et je sais qu'ils représentent le nombre d'événements donné un taux. Je sais également que les distributions du chi carré représentent la somme des carrés des normales standard (variance 1). J'essaie simplement de comprendre la justification de la réutilisation de la valeur attendue comme hypothèse de la "propagation" de chacune des normales. Est-ce juste pour que tout soit conforme à la distribution du chi carré / pour "standardiser" les normales?
Yang
3
Il y a quelques problèmes, la distribution de Poisson est courante pour les dénombrements lorsque les choses sont assez indépendantes. Au lieu de penser au tableau comme ayant un total fixe et que vous distribuez les valeurs entre les cellules du tableau, pensez à une seule cellule du tableau et vous attendez un temps fixe pour voir combien de réponses tombent dans cette cellule , cela correspond à l'idée générale du Poisson. Pour des moyennes importantes, vous pouvez approximer un Poisson avec une distribution normale, de sorte que la statistique de test a un sens en tant qu'approximation normale du Poisson, puis convertir en . χ2
Greg Snow
1
(+1) Supposons que les comptes de cellules étaient des variables aléatoires de Poisson indépendantes avec une moyenne n π i . Alors, certainement, k i = 1 ( X i - n π i ) 2Xi,,Xknπi dans la distribution. Mais, le problème avec cela est quenest unparamètreet non le nombre réel observé. Les comptes totaux observés sontN= k i = 1 XiPoi(n). Bien queN/n1presque sûrement par le SLLN, il reste encore du travail à faire pour transformer l'heuristique en quelque chose de réalisable. i=1k(Xinπi)2nπiχk2nN=i=1kXiPoi(n)N/n1
cardinal
Comme simple illustration de ma confusion, que se passerait-il si nous testions si deux processus sont significativement différents, l'un qui génère 500 As et 500 Bs avec une très petite variance, et l'autre qui génère 550 As et 450 Bs avec une très petite variance (générant rarement 551 As et 449 Bs)? La variance ici n'est-elle pas clairement non seulement la valeur attendue?
Yang
1
@Yang: Cela ressemble à vos données --- que vous n'avez pas décrites --- ne sont pas conformes au modèle sous-jacent à l'utilisation de la statistique du chi carré. Le modèle standard est un échantillonnage multinomial . À proprement parler, même l'échantillonnage de Poisson (inconditionnel) n'est pas couvert, ce que suppose la réponse de Greg. Je fais référence (peut-être obtuse) à cela dans mon commentaire précédent.
cardinal
17

Prenons le cas le plus simple pour essayer de fournir le plus d'intuition. Soit un échantillon iid d'une distribution discrète avec k résultats. Soit π 1 , , π k les probabilités de chaque résultat particulier. Nous nous intéressons à la distribution (asymptotique) de la statistique du chi carré X 2 = k i = 1 ( S i - n π i ) 2X1,X2,,Xnkπ1,,πk Ici n π i est le nombre attendu de dénombrements du i ème résultat.

X2=i=1k(Sinπi)2nπi.
nπii

Une heuristique suggestive

Définissez , de sorte queX2=iU 2 i =U 2 2U=(U1,,Uk).Ui=(Sinπi)/nπiX2=iUi2=U22U=(U1,,Uk)

Puisque est B i n ( n , π i ) , alors par le théorème de la limite centrale , T i = U iSiBin(n,πi) conséquent, nous avons aussi cela, U i d N ( 0 , 1 - π i ) .

Ti=Ui1πi=Sinπinπi(1πi)dN(0,1),
UidN(0,1πi)

Maintenant, si les étaient (asymptotiquement) indépendants (ce qu'ils ne sont pas), alors nous pourrions faire valoir que i T 2 iTiiTi2 était asymptotiquement distribué. Mais, notez que T k est une fonction déterministe de ( T 1 , , T k - 1 ) et que les variables T i ne peuvent donc pas être indépendantes.χk2Tk(T1,,Tk1)Ti

Par conséquent, nous devons prendre en compte la covariance entre eux d'une manière ou d'une autre. Il s'avère que la façon "correcte" de le faire est d'utiliser à la place le , et la covariance entre les composants de U change également la distribution asymptotique de ce que nous aurions pu penser être χ 2 k à ce qui est, en fait, a χ 2 k - 1 .UiUχk2χk12

Quelques détails à ce sujet suivent.

Un traitement plus rigoureux

Il n'est pas difficile de vérifier qu'en fait, pourij.Cov(Ui,Uj)=πiπjij

Donc, la covariance de est A = I - U

A=IππT,
. Notez que Aest symétrique et idempotent,savoirA=A2=AT. Ainsi, en particulier, siZ=(Z1,,Zk)a iid des composantes normales standard, alorsAZN(0,A). (NBLa distribution normale multivariée dans ce cas estdégénérée.)π=(π1,,πk)AA=A2=ATZ=(Z1,,Zk)AZN(0,A)

Maintenant, le multivariée théorème central limite , le vecteur a une distribution normale à plusieurs variables asymptotique avec une moyenne 0 et covariance A .U0A

Donc, a la même distribution asymptotique que A Z , par conséquent, la même distribution asymptotique de X 2 = U T U est la même que la distribution de Z T A T A Z = Z T A Z par le théorème de cartographie continue .UAZX2=UTUZTATAZ=ZTAZ

Mais, est symétrique et idempotent, donc ( a ) il a des vecteurs propres orthogonaux, ( b ) toutes ses valeurs propres sont 0 ou 1, et ( c ) la multiplicité de la valeur propre de 1 est r a n k ( A ) . Cela signifie que A peut être décomposé en A = Q D Q TQ est orthogonal et D est une matrice diagonale avec r a n k ( A ) sur la diagonale et les entrées diagonales restantes étant nulles.Arank(A)AA=QDQTQDrank(A)

Ainsi, doit être χ 2 k - 1 distribué puisque A a le rang k - 1 dans notre cas.ZTAZχk12Ak1

Autres connexions

La statistique du chi carré est également étroitement liée aux statistiques du rapport de vraisemblance. En effet, il s'agit d'une statistique de score de Rao et peut être considérée comme une approximation de la série Taylor de la statistique du rapport de vraisemblance.

Les références

C'est mon propre développement basé sur l'expérience, mais évidemment influencé par des textes classiques. Les bons endroits où chercher pour en savoir plus sont

  1. GAF Seber et AJ Lee (2003), Linear Regression Analysis , 2e éd., Wiley.
  2. E. Lehmann et J. Romano (2005), Testing Statistical Hypotheses , 3e éd., Springer. Section 14.3 en particulier.
  3. DR Cox et DV Hinkley (1979), Statistiques théoriques , Chapman et Hall.
cardinal
la source
(+1) Je pense qu'il est difficile de trouver cette preuve dans des textes standard d'analyse de données catégoriques comme Agresti, A. (2002). Analyse des données catégoriques. John-Wiley.
suncoolsu
Merci pour le commentaire. Je sais qu'il y a un traitement de la statistique du chi carré à Agresti, mais je ne me souviens pas jusqu'où il va. Il peut simplement faire appel à l'équivalence asymptotique avec la statistique du rapport de vraisemblance.
cardinal
k1
XS