Étrange façon de calculer le chi carré dans Excel vs R

9

Je regarde une feuille Excel qui prétend calculer le , mais je ne reconnais pas cette façon de faire, et je me demandais si je manquais quelque chose.χ2

Voici les données qu'il analyse:

+------------------+----------+----------+
| Total Population | Observed | Expected |
+------------------+----------+----------+
|             2000 |       42 | 32.5     |
|             2000 |       42 | 32.5     |
|             2000 |       25 | 32.5     |
|             2000 |       21 | 32.5     |
+------------------+----------+----------+

Et voici les sommes qu'il fait pour chaque groupe afin de calculer le chi carré:

P = (sum of all observed)/(sum of total population) = 0.01625
A = (Observed - (Population * P)) ^2
B = Total Population * P * (1-P)
ChiSq = A/B

Donc pour chaque groupe, le est:χ2

2.822793
2.822793
1.759359
4.136448

Et la place totale Chi est: 11.54139.

Cependant, chaque exemple que j'ai vu de calculer le est complètement différent de cela. Je ferais pour chaque groupe:χ2

chiSq = (Observed-Expected)^2 / Expected

Et donc pour l'exemple ci-dessus, j'obtiendrais une valeur totale de chi carré de 11.3538.

Ma question est - pourquoi dans la feuille Excel calculent-ils de cette façon? Est-ce une approche reconnue?χ2

MISE À JOUR

Ma raison de vouloir savoir ceci est que j'essaie de reproduire ces résultats dans le langage R. J'utilise la fonction chisq.test et elle ne sort pas avec le même numéro que la feuille Excel. Donc, si quelqu'un sait comment faire cette approche en R, ce serait très utile!

MISE À JOUR 2

Si quelqu'un est intéressé, voici comment je l'ai calculé dans R:

res <- matrix(c((2000-42), 42, (2000-42), 42, (2000-25), 25, (2000-21), 21), 2, 4)
chisq.test(res)
user1578653
la source
L'approche de votre deuxième mise à jour devrait fournir les statistiques correctes. Cependant, si vos attentes ne sont pas basées sur la somme des observations, vous pourriez avoir un problème car la valeur de p y conditionne. Cependant, je remarque que les résultats attendus et observés ont le même total (peu probable que cela se produise par hasard), donc tout va probablement bien. Vous pourriez le faire plus facilement de cette façon:x=c(42,42,25,21);chisq.test(cbind(x,2000-x))
Glen_b -Reinstate Monica
@Glen_b Dans la feuille Excel, je crois que les attentes sont établies en faisant de Population totale * la valeur «P» que j'ai calculée ci-dessus. Est-ce que ça va être un problème? De plus, la population totale varie - la plupart du temps, c'est 2000, mais cela pourrait être n'importe quel nombre. La feuille Excel que j'essaie de recréer ici ne prend pas réellement en compte la valeur de p, donc si la statistique ne sera pas affectée par cela, alors ce n'est peut-être pas un problème ...
user1578653
La question se résume à l'origine des p. Impliquent-ils de regarder le nombre total observé?
Glen_b -Reinstate Monica
Eh bien pour moi , il semble que le Ps, et donc attendue est basée sur deux le nombre total observé et la population totale ... Cependant , dans tous les exemples que j'ai données dans la fiche Excel la valeur attendue semble aussi correspondre à la dénombrement total observé / nombre de dénombrements.
user1578653
Si les p sont basés sur les décomptes de cette manière, bien sûr, les attentes suivent. Si c'est le cas, cela ressemble aux degrés de liberté et ainsi de suite sont bien comme vous l'avez fait dans R - mais quelques mots de mon explication peuvent devoir changer.
Glen_b -Reinstate Monica

Réponses:

13

Cela s'avère assez simple.

Il s'agit clairement d'un échantillonnage binomial. Il y a deux façons de voir les choses.

XjePoubelle(Nje,pje)N(μje=Njepje,σje2=Njepje(1-pje))Zje=(Xje-μje)/σjeZjeZje2χ2

Z

(O-E)2/E

+------------+------+-------+
| Population | In A | Not A |
+------------+------+-------+
|       2000 |   42 |  1958 |
|       2000 |   42 |  1958 |
|       2000 |   25 |  1975 |
|       2000 |   21 |  1979 |
+ -----------+------+-------+

ENje(1-pje)

(O-E)2/E

1/p+1/(1-p)=1/p(1-p)th

(Xje-μje)2σje2=(Xje-Njepje)2Njepje(1-pje)=(Xje-Njepje)2Njepje+(Xje-Njepje)2Nje(1-pje)=(Xje-Njepje)2Njepje+(Nje-Nje+Njepje-Xje)2Nje(1-pje)=(Xje-Njepje)2Njepje+(Nje-Xje-(Nje-Njepje))2Nje(1-pje)=(Xje-Njepje)2Njepje+((Nje-Xje)-Nje(1-pje))2Nje(1-pje)=(Oje(UNE)-Eje(UNE))2Eje(UNE)+(Oje(UNE¯)-Eje(UNE¯))2Eje(UNE¯)

Ce qui signifie que vous devriez obtenir la même réponse dans les deux sens, jusqu'à une erreur d'arrondi.

Voyons voir:

             Observed             Expected                 (O-E)^2/E          
  Ni        A     not A          A      not A             A           not A      
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     25         1975      32.5     1967.5       1.730769231     0.028589581     
 2000     21         1979      32.5     1967.5       4.069230769     0.067217281     

                                            Sum     11.35384615      0.187547649  

Khi-deux = 11,353846 + 0,187548 = 11,54139

Qui correspond à leur réponse.

Glen_b -Reinstate Monica
la source
1
Merci de votre aide! Je ne suis pas mathématicien / statisticien, donc cela m'a dérouté au début, mais votre explication est très facile à comprendre.
user1578653