Règles d'application de la simulation Monte Carlo des valeurs de p pour le test du chi carré

9

J'aimerais comprendre l'utilisation de la simulation de Monte Carlo dans la chisq.test()fonction de R.

J'ai une variable qualitative qui a 128 niveaux / classes. La taille de mon échantillon est de 26 (je n'ai pas pu échantillonner plus de "personnes"). Alors évidemment, j'aurai quelques niveaux avec 0 "individus". Mais le fait est que je n'ai qu'un très petit nombre de classes représentées sur les 127 possibles. Comme j'ai entendu que pour appliquer le test du chi carré, nous devrions avoir au moins 5 individus dans chaque niveau (je ne comprends pas complètement la raison de cela), j'ai pensé que je devais utiliser l' simulate.p.valueoption d'utiliser la simulation de Monte Carlo pour estimer la distribution et calculer une valeur de p. Sans simulation de Monte Carlo, R me donne une valeur de p < 1e-16. Avec la simulation de Monte Carlo, cela me donne une valeur de p à 4e-5.

J'ai essayé de calculer la valeur de p avec un vecteur de 26 uns et 101 zéros, et avec la simulation de Monte-Carlo, j'obtiens une valeur de p à 1.

Est-il correct de déclarer que, même si ma taille d'échantillon est petite par rapport au nombre de classes possibles, la distribution observée est telle qu'il est très peu probable que toutes les classes possibles existent à la même probabilité (1/127) dans la population réelle ?

jtextori
la source
3
Si vos données sont vraiment que vous avez observé 26 classes distinctes sur un échantillon de 26, alors vous n'avez essentiellement aucune preuve contre l'hypothèse que les 127 classes ont une probabilité égale. Cela peut être évalué avec un calcul de distribution multinomiale.
whuber
1
" Comme j'ai entendu dire que pour appliquer le test du chi carré, nous devrions avoir au moins 5 individus dans chaque niveau (je ne comprends pas complètement la raison de cela) " - pas tout à fait. L'avis initial était que le nombre attendu , et non le nombre réel, devrait être d'au moins 5. Le but de cette règle (maintenant dépassée depuis longtemps) était d'essayer de s'assurer que la distribution du khi carré est une approximation raisonnable de la distribution discrète de la statistique de test. Des conseils à travers une multitude de documents au cours des quatre dernières décennies environ sont «cette règle est un peu trop stricte».
Glen_b -Reinstate Monica

Réponses:

6

En recherchant, il semble que le but de la simulation Monte-Carlo est de produire une distribution de référence, basée sur des échantillons générés aléatoirement qui auront la même taille que l'échantillon testé, afin de calculer les valeurs de p lorsque les conditions de test ne sont pas remplies.

Ceci est expliqué dans Hope A. J Royal Stat Society Series B (1968) qui peut être trouvé sur JSTOR .

Voici une citation pertinente du document Hope:

Les procédures de test de signification de Monte-Carlo consistent en la comparaison des données observées avec des échantillons aléatoires générés conformément à l'hypothèse testée. ... Il est préférable d'utiliser un test connu de bonne efficacité au lieu d'une procédure de test de Monte-Carlo en supposant que l'hypothèse statistique alternative peut être complètement spécifiée. Cependant, il n'est pas toujours possible d'utiliser un tel test car les conditions nécessaires à son application peuvent ne pas être remplies, ou la distribution sous-jacente peut être inconnue ou il peut être difficile de décider d'un critère de test approprié.

jtextori
la source