J'ai lu que le test du chi carré est utile pour voir si un échantillon est significativement différent d'un ensemble de valeurs attendues.
Par exemple, voici un tableau des résultats d'une enquête concernant les couleurs préférées des gens (n = 15 + 13 + 10 + 17 = 55 répondants au total):
red,blue,green,yellow
15,13,10,17
Un test du chi carré peut me dire si cet échantillon est significativement différent de l'hypothèse nulle de probabilité égale de personnes aimant chaque couleur.
Question: Le test peut-il être exécuté sur les proportions de répondants totaux qui aiment une certaine couleur? Comme ci-dessous:
red,blue,green,yellow
0.273,0.236,0.182,0.309
Où, bien sûr, 0,273 + 0,236 + 0,182 + 0,309 = 1.
Si le test du chi carré ne convient pas dans ce cas, quel serait le test? Merci!
Edit: J'ai essayé la réponse de @Roman Luštrik ci-dessous, et j'ai obtenu la sortie suivante, pourquoi ne reçois-je pas une valeur de p et pourquoi R dit "l'approximation du chi carré peut être incorrecte"?
> chisq.test(c(0,0,0,8,6,2,0,0),p = c(0.406197174,0.088746395,0.025193306,0.42041479,0.03192905,0.018328576,0.009190708,0))
Chi-squared test for given probabilities
data: c(0, 0, 0, 8, 6, 2, 0, 0)
X-squared = NaN, df = 7, p-value = NA
Warning message:
In chisq.test(c(0, 0, 0, 8, 6, 2, 0, 0), p = c(0.406197174, 0.088746395, :
Chi-squared approximation may be incorrect
Réponses:
Corrigez-moi si je me trompe, mais je pense que cela peut être fait dans R en utilisant cette commande
Cela suppose des proportions de 1/4 chacune. Vous pouvez modifier les valeurs attendues via un argument
p
. Par exemple, vous pensez que les gens peuvent préférer (pour quelque raison que ce soit) une couleur aux autres.la source
En utilisant les informations supplémentaires que vous avez fournies (étant donné que certaines des valeurs sont 0), il est assez évident pourquoi votre solution ne renvoie rien. D'une part, vous avez une probabilité de 0, donc:
Ce qui rend les divisions impossibles. Maintenant, dire que signifie qu'il est impossible d'avoir ce résultat. Si c'est le cas, vous pouvez tout aussi bien l'effacer des données (voir le commentaire de @cardinal). Si vous voulez dire hautement improbable, une première «solution» pourrait être d'augmenter cette chance 0 avec un très petit nombre.p=0
Donné :
Vous pourriez faire :
Mais ce n'est pas un résultat correct. Dans tous les cas, il faut éviter d'utiliser le test du chi carré dans ces cas limites. Une meilleure approche consiste à utiliser une approche bootstrap, à calculer une statistique de test adaptée et à comparer celle de l'échantillon avec la distribution obtenue par le bootstrap.
Dans le code R, cela pourrait être (étape par étape):
Cela donne une valeur de p de 0, ce qui est beaucoup plus en ligne avec la différence entre observé et attendu. Attention, cette méthode suppose que vos données proviennent d'une distribution multinomiale. Si cette hypothèse ne tient pas, la valeur de p ne tient pas non plus.
la source
Le test du chi carré est bon tant que les comptes attendus sont importants, généralement au-dessus de 10, c'est bien. en dessous de ce tendance à dominer le test. Une statistique de test exacte est donnée par:1E(xi)
Où est le nombre observé dans la catégorie i . i ∈ { rouge, bleu, vert, jaune } dans votre exemple. n est la taille de votre échantillon, égale à 55 dans votre exemple. p i est l'hypothèse que vous souhaitez tester - la plus évidente est p i = p j (toutes les probabilités sont égales). Vous pouvez montrer que la statistique du chi carré:xi i i∈{red, blue, green, yellow} n 55 pi pi=pj
En termes de fréquences observées on obtient:fi=xin
χ2=n∑i(fi-pi)2
(Notez que est effectivement la divergence KL entre l'hypothèse et les valeurs observées). Vous pourrez peut-être voir intuitivement pourquoi ψ est meilleur pour les petits p i , car il a un 1ψ ψ pi 1pi ψ
Maintenant, si vous choisissezH2 to be the "sure thing" or "perfect fit" hypothesis, then we will have ψ2=χ22=0 , and thus the chi-square and psi statistic both tell you "how far" from the perfect fit any single hypothesis is, from one which fit the observed data exactly.
Final recommendation: Useχ22 statistic when the expected counts are large, mainly because most statistical packages will easily report this value. If some expected counts are small, say about npi<10 , then use ψ , because the chi-square is a bad approximation in this case, these small cells will dominate the chi-square statistic.
la source
Yes, you can test the null hypothesis: "H0: prop(red)=prop(blue)=prop(green)=prop(yellow)=1/4" using a chi square test that compares the proportions of the survey (0.273, ...) to the expected proportions (1/4, 1/4, 1/4, 1/4)
la source
The test statistic for Pearson's chi-square test is
If you writeoi=Oin and ei=Ein to have proportions, where n=∑ni=1Oi is the sample size and ∑ni=1ei=1 , then the test statistic is is equal to
so a test of the significance of the observed proportions depends on the sample size, much as one would expect.
la source