Bootstrapping avec un petit nombre d'observations

8

Disons que j'ai collecté un petit nombre (N) d'observations pour une hypothèse que j'aimerais tester. Je pourrais utiliser la méthode bootstrap pour produire une distribution d'échantillon pour le résultat moyen de N observations, mais je crains que ce modèle ne se décompose lorsque N devient très petit, introduisant une erreur dans la distribution d'échantillon elle-même.

Donc ma question est, comment puis-je déterminer quel est le N minimum dont j'ai besoin pour des résultats raisonnables; ou plus quantitativement, comment N est-il lié à l'erreur d'échantillonnage comme N-> 0?

Mise à jour: j'en viens à comprendre que la valeur minimale de N variera en fonction de la nature des données sous-jacentes. Donc, dans ce cas, quelles méta-observations puis-je faire pour m'aider à déterminer cela? Je ne connais pas la vraie distribution sous-jacente, sinon je n'aurais pas besoin de bootstrap.

G__
la source
1
J'ai vu un commentaire intéressant dans les notes de cours du professeur Wasserman sur stat.cmu.edu/~larry/=stat705/Lecture13.pdf . La notation à côté de l'équation (21) à la p. 6 suggère que l'erreur qui vous préoccupe tombe en 1 / sqrt (n). Malheureusement, je ne sais rien du coefficient constant.
max

Réponses:

7

Il n'y a pas de réponse simple à cela, car cela dépendra toujours à la fois de la vraie distribution de vos données (imaginez le cas dégénéré où la seule valeur autorisée est 1: alors un bootstrap à partir d'un échantillon de taille 1 sera aussi bon que n'importe quoi !) et la statistique que vous allez calculer: certaines statistiques auront plus de mal à récupérer à partir d'un petit échantillon que d'autres (imaginez un rééchantillonnage d'une valeur aberrante extrême).

Donc: vous devrez être plus précis que ce que vous nous avez donné jusqu'à présent.

Nick Sabbe
la source
1
Peut-on faire des inférences sur la vraie distribution à partir des observations, peut-être en utilisant la variance des observations? Le cas aberrant extrême est difficile, mais si vous en avez vu un qui contient beaucoup d'informations. Si nous révisons la question pour spécifier N> 2, alors la deuxième observation nous dit déjà quelque chose si N1 = N2 vs N1! = N2 (et quelle est la différence entre eux).
G__
L'amorçage des extrêmes ne fonctionne pas, point final.
kjetil b halvorsen