Taille des échantillons bootstrap

9

J'apprends le bootstrap comme moyen d'estimer la variance d'un échantillon statistique. J'ai un doute fondamental.

Citant de http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf :

• Combien d'observations devons-nous rééchantillonner? Une bonne suggestion est la taille de l'échantillon d'origine.

Comment rééchantillonner autant d'observations que dans l'échantillon d'origine?
Si j'ai un échantillon de 100 et que j'essaie d'estimer la variance de la moyenne. Comment puis-je obtenir plusieurs échantillons bootstrap de taille 100 à partir d'un échantillon total de 100? Un seul échantillon bootstrap serait possible dans ce cas, ce qui serait équivalent à l'échantillon d'origine, n'est-ce pas?

Je comprends manifestement quelque chose de très basique. Je comprends que le nombre d' échantillons bootstrap idéaux est toujours infini, et pour déterminer le nombre d'échantillons bootstrap nécessaires pour mes données, je devrais tester la convergence en gardant à l'esprit ma précision requise.
Mais je suis vraiment confus quant à la taille de chaque échantillon de bootstrap individuel .

user1265125
la source
7
Le haut de p. 3, et les illustrations qui y figurent, stipulent clairement et bien en évidence que le rééchantillonnage est avec remplacement.
whuber
Mais si ma taille d'échantillon bootstrap est la même que le nombre total d'observations que j'ai, par quoi dois-je remplacer?
user1265125
Exemple simplifié - donc si j'ai 4,1,3,7,5 comme échantillon. Comment puis-je créer plusieurs échantillons bootstrap de taille 5? Le seul échantillon bootstrap de taille 5 sera 4,1,3,7,5, c'est-à-dire le jeu d'échantillons d'origine.
user1265125
1
Oh, attendez, j'ai compris - "• Pour simuler une distribution d'échantillonnage, nous pouvons simplement prélever des échantillons aléatoires répétés de cette" population "composée de nombreuses copies de l'échantillon"
user1265125

Réponses:

16

Le bootstrap est effectué par échantillonnage avec remplacement . Il semble que le terme "avec remplacement" ne soit pas clair pour vous. Comme l'a noté whuber , une illustration de l'échantillonnage avec remplacement est donnée à la p. 3 du document auquel vous vous référez (reproduit ci-dessous).

Illustration de l'échantillonnage avec remplacement

(source: http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf )

L'idée générale de l'échantillonnage avec remplacement est que n'importe quel cas peut être échantillonné plusieurs fois (marbre vert sur la première image ci-dessus; billes bleues et violettes sur la dernière image). Si vous voulez vous imaginer ce processus, pensez à un bol rempli de billes colorées. Dites que vous voulez tirer un certain nombre de billes de ce bol. Si vous échantillonnez sans remplacement, vous retirez simplement les billes du bol et mettez de côté celles qui sont échantillonnées. Si vous avez échantillonné avec remplacement, vous échantillonneriez les billes une par une, en prenant une seule bille dans le bol, en signant sa couleur dans votre cahier et en la retournantdans le bol. Ainsi, lors de l'échantillonnage avec remplacement, le même marbre peut être échantillonné plusieurs fois.

nnnnnnn

Il y a méthodes d'échantillonnage sans remplacement cas parmi la population de taille et méthodes d'échantillonnage avec remplacement. Si vous souhaitez en savoir plus sur les mathématiques derrière, vous pouvez vérifier le 2.1. Chapitre Combinatoire du manuel en ligne Introduction à la probabilité par Hossein Pishro-Nik. Il y a aussi un cheatsheet pratique sur la page WolframMathWorld .(nk)kn(n+k1k)

Tim
la source
0

Combien d'observations devons-nous rééchantillonner? Une bonne suggestion est la taille de l'échantillon d'origine.

Lorsque la taille de l'échantillon d'origine est trop grande et que vous ne voulez pas / ne pouvez pas former un modèle sur l'ensemble de données complet, la "bonne suggestion" n'est pas si bonne.

PS: Je voulais ajouter ceci en tant que commentaire à la question mais je ne suis pas autorisé à ajouter de commentaire ...

Daruma
la source
1
Pourquoi voulez-vous ajouter cette suggestion? Si cela est dû à des ensembles de données trop volumineux pour des efforts de calcul réguliers, c'est un problème pratique pertinent, mais cela ne s'applique pas vraiment à la théorie du bootstrap qui a été mise en cause ici. De plus, il s'agissait «d'estimer la variance d'un échantillon statistique». Est-ce vraiment lié à la formation générale d'un modèle? (NB: pour ne pas être impoli, je comprends que vous ne pouvez pas encore poster de commentaires, mais cela ne vous décharge pas de fournir une réponse pertinente lors de la publication en tant que telle. Vous devez être beaucoup plus clair, OU poster votre propre question)
IWS