J'aimerais comprendre l'utilisation de la simulation de Monte Carlo dans la chisq.test()
fonction de R.
J'ai une variable qualitative qui a 128 niveaux / classes. La taille de mon échantillon est de 26 (je n'ai pas pu échantillonner plus de "personnes"). Alors évidemment, j'aurai quelques niveaux avec 0 "individus". Mais le fait est que je n'ai qu'un très petit nombre de classes représentées sur les 127 possibles. Comme j'ai entendu que pour appliquer le test du chi carré, nous devrions avoir au moins 5 individus dans chaque niveau (je ne comprends pas complètement la raison de cela), j'ai pensé que je devais utiliser l' simulate.p.value
option d'utiliser la simulation de Monte Carlo pour estimer la distribution et calculer une valeur de p. Sans simulation de Monte Carlo, R me donne une valeur de p < 1e-16
. Avec la simulation de Monte Carlo, cela me donne une valeur de p à 4e-5
.
J'ai essayé de calculer la valeur de p avec un vecteur de 26 uns et 101 zéros, et avec la simulation de Monte-Carlo, j'obtiens une valeur de p à 1.
Est-il correct de déclarer que, même si ma taille d'échantillon est petite par rapport au nombre de classes possibles, la distribution observée est telle qu'il est très peu probable que toutes les classes possibles existent à la même probabilité (1/127) dans la population réelle ?
la source
Réponses:
En recherchant, il semble que le but de la simulation Monte-Carlo est de produire une distribution de référence, basée sur des échantillons générés aléatoirement qui auront la même taille que l'échantillon testé, afin de calculer les valeurs de p lorsque les conditions de test ne sont pas remplies.
Ceci est expliqué dans Hope A. J Royal Stat Society Series B (1968) qui peut être trouvé sur JSTOR .
Voici une citation pertinente du document Hope:
la source