Disons que j'ai collecté un petit nombre (N) d'observations pour une hypothèse que j'aimerais tester. Je pourrais utiliser la méthode bootstrap pour produire une distribution d'échantillon pour le résultat moyen de N observations, mais je crains que ce modèle ne se décompose lorsque N devient très petit, introduisant une erreur dans la distribution d'échantillon elle-même.
Donc ma question est, comment puis-je déterminer quel est le N minimum dont j'ai besoin pour des résultats raisonnables; ou plus quantitativement, comment N est-il lié à l'erreur d'échantillonnage comme N-> 0?
Mise à jour: j'en viens à comprendre que la valeur minimale de N variera en fonction de la nature des données sous-jacentes. Donc, dans ce cas, quelles méta-observations puis-je faire pour m'aider à déterminer cela? Je ne connais pas la vraie distribution sous-jacente, sinon je n'aurais pas besoin de bootstrap.
Réponses:
Il n'y a pas de réponse simple à cela, car cela dépendra toujours à la fois de la vraie distribution de vos données (imaginez le cas dégénéré où la seule valeur autorisée est 1: alors un bootstrap à partir d'un échantillon de taille 1 sera aussi bon que n'importe quoi !) et la statistique que vous allez calculer: certaines statistiques auront plus de mal à récupérer à partir d'un petit échantillon que d'autres (imaginez un rééchantillonnage d'une valeur aberrante extrême).
Donc: vous devrez être plus précis que ce que vous nous avez donné jusqu'à présent.
la source