Comment Karl Pearson a-t-il trouvé la statistique du chi carré?

14

Comment Pearson a-t-il établi les statistiques du chi carré Pearson suivantes en 1900?

K=(OijEij)2Eij
que
Kχ2

A-t-il pensé au chi carré et conçu la métrique (approche ascendante), ou a-t-il conçu la statistique et prouvé plus tard qu'elle suit la distribution du khi carré (de haut en bas)?K

Je veux savoir pourquoi il a choisi cette forme spécifique et pas d'autres telles que ou, et aussi pourquoi il a divisé le carré avec le dénominateur.(OijEij)2|OijEij|

Alby
la source
1
Vous pourriez trouver cela intéressant: pourquoi quadriller la différence au lieu de prendre la valeur absolue en écart-type?
gung - Rétablir Monica
1
Il est bien sûr possible d'avoir autant de statistiques que vous pouvez utiliser. Vos alternatives sont parfaitement adaptées, bien que vous deviez déterminer des distributions d'échantillonnage pour elles, qui différeraient en fonction du nombre de cellules. Une chose qui convient à cette forme est qu'elle a certaines relations avec d'autres distributions, par exemple, c'est la distribution de la somme de k carrés aléatoires normaux normaux.
gung - Réintègre Monica

Réponses:

23

Le document de Pearson datant de 1900 n'est plus protégé par le droit d'auteur, nous pouvons donc le lire en ligne .

Vous devriez commencer par noter que cet article porte sur la qualité du test d'ajustement, et non sur le test d'indépendance ou d'homogénéité.

Il procède en travaillant avec la normale multivariée, et le chi carré apparaît comme une somme de variables normales normalisées au carré.

Vous pouvez voir dans la discussion sur p160-161 qu'il discute clairement de l'application du test aux données distribuées multinomiales (je ne pense pas qu'il utilise ce terme nulle part). Il comprend apparemment la normalité multivariée approximative du multinomial (certainement il sait que les marges sont approximativement normales - c'est un résultat très ancien - et connaît les moyennes, les variances et les covariances, car elles sont énoncées dans l'article); je suppose que la plupart de ces choses sont déjà anciennes en 1900. (Notez que la distribution chi carré elle-même remonte au travail par Helmert au milieu des années 1870.)

Puis, au bas de p163, il dérive une statistique du chi carré comme "une mesure de la qualité de l'ajustement" (la statistique elle-même apparaît dans l'exposant de l'approximation normale multivariée).

Il continue ensuite à discuter de la façon d'évaluer la valeur de p *, puis il donne correctement la zone de la queue supérieure d'un au-delà de 43,87 à 0,000016. [Cependant, vous devez garder à l'esprit qu'il n'a pas correctement compris comment ajuster les degrés de liberté pour l'estimation des paramètres à ce stade, donc certains des exemples dans ses articles utilisent un df trop élevé]χ122

* (notez que ni les paradigmes de test de Fisherian ni de Neyman-Pearson n'existent, nous le voyons néanmoins clairement appliquer déjà le concept d'une valeur de p.)

Vous remarquerez qu'il n'écrit pas explicitement des termes comme . Au lieu de cela, il écrit m 1 , m 2, etc. pour les comptes attendus et pour les quantités observées, il utilise m 1 et ainsi de suite. Il définit ensuite e = m - m (moitié inférieure p160) et calcule e 2 / m pour chaque cellule (voir éq. (Xv) p163 et la dernière colonne du tableau en bas de p167) ... quantités équivalentes, mais en notation différente.(OiEi)2/Eim1m2m1e=mme2/m

Une grande partie de la manière actuelle de comprendre le test du chi carré n'est pas encore en place, mais d'un autre côté, beaucoup est déjà là (du moins si vous savez quoi chercher). Il s'est passé beaucoup de choses dans les années 1920 (et au-delà) qui ont changé notre façon de voir ces choses.


Quant à savoir pourquoi nous divisons par dans le cas multinomial, il arrive que même si la variance des composants individuels dans un multinomial est plus petite que E i , lorsque nous tenons compte des covariances, cela équivaut à simplement diviser par E i , ce qui fait pour une belle simplification.EiEiEi


Ajouté en édition:

L'article de 1983 de Plackett donne une bonne partie du contexte historique, et quelque chose comme un guide de l'article. Je recommande fortement d'y jeter un œil. Il semble que ce soit gratuit en ligne via JStor (si vous vous connectez), vous ne devriez donc même pas avoir besoin d'un accès via une institution pour le lire.

Plackett, RL (1983),
«Karl Pearson et le test du chi carré» ,
Revue statistique internationale ,
vol. 51, n ° 1 (avril), p. 59-72

Glen_b -Reinstate Monica
la source
1
Je viens de relire cet article et chaque fois que je le fais, j'obtiens un aperçu supplémentaire. @Glen_b Je veux vous remercier pour votre superbe réponse, que j'aurais dû faire avant. Si je peux poser une question supplémentaire, dans votre explication sur la façon dont la division par E s'ajuste à la covariance, pouvez-vous en dire plus ou m'indiquer la ressource qui traite de ce point? Je peux comprendre intuitivement pourquoi la «normalisation» est nécessaire, mais je veux soutenir mon intuition avec la preuve mathématique.
Alby
1
Ei
1
XiCov(Xi,Xj)=E(XiXj)E(Xi)E(Xj)=E(Xi)E(Xj)Xi,Xj>0Cov(Oi,Oj)
Merci pour le lien @Glen_b. Après avoir lu le billet, c'est beaucoup plus clair maintenant! Je pensais naïvement que le dénominateur est là pour ajuster les différences initiales pour chaque cellule, d'où le terme de "normalisation", mais en lisant votre article, j'ai réalisé que j'étais complètement hors de propos.
Alby
Malheureusement, le mot «normaliser» a au moins trois sens différents pertinents en statistique. Sans fioritures, je ne l'emploierais normalement que pour signifier «normaliser pour signifier 0 et écart-type 1», mais d'autres personnes l'utilisent pour signifier «normaliser» dans le sens de normaliser un vecteur selon une norme, ou même pour transformer en normalité approximative. Étant donné que c'est un tel bugbear ici, je devrais maintenant savoir pour l'éviter.
Glen_b -Reinstate Monica