J'apprends le bootstrap comme moyen d'estimer la variance d'un échantillon statistique. J'ai un doute fondamental.
Citant de http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf :
• Combien d'observations devons-nous rééchantillonner? Une bonne suggestion est la taille de l'échantillon d'origine.
Comment rééchantillonner autant d'observations que dans l'échantillon d'origine?
Si j'ai un échantillon de 100 et que j'essaie d'estimer la variance de la moyenne. Comment puis-je obtenir plusieurs échantillons bootstrap de taille 100 à partir d'un échantillon total de 100? Un seul échantillon bootstrap serait possible dans ce cas, ce qui serait équivalent à l'échantillon d'origine, n'est-ce pas?
Je comprends manifestement quelque chose de très basique. Je comprends que le nombre d' échantillons bootstrap idéaux est toujours infini, et pour déterminer le nombre d'échantillons bootstrap nécessaires pour mes données, je devrais tester la convergence en gardant à l'esprit ma précision requise.
Mais je suis vraiment confus quant à la taille de chaque échantillon de bootstrap individuel .
la source
Réponses:
Le bootstrap est effectué par échantillonnage avec remplacement . Il semble que le terme "avec remplacement" ne soit pas clair pour vous. Comme l'a noté whuber , une illustration de l'échantillonnage avec remplacement est donnée à la p. 3 du document auquel vous vous référez (reproduit ci-dessous).
(source: http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf )
L'idée générale de l'échantillonnage avec remplacement est que n'importe quel cas peut être échantillonné plusieurs fois (marbre vert sur la première image ci-dessus; billes bleues et violettes sur la dernière image). Si vous voulez vous imaginer ce processus, pensez à un bol rempli de billes colorées. Dites que vous voulez tirer un certain nombre de billes de ce bol. Si vous échantillonnez sans remplacement, vous retirez simplement les billes du bol et mettez de côté celles qui sont échantillonnées. Si vous avez échantillonné avec remplacement, vous échantillonneriez les billes une par une, en prenant une seule bille dans le bol, en signant sa couleur dans votre cahier et en la retournantdans le bol. Ainsi, lors de l'échantillonnage avec remplacement, le même marbre peut être échantillonné plusieurs fois.
Il y a méthodes d'échantillonnage sans remplacement cas parmi la population de taille et méthodes d'échantillonnage avec remplacement. Si vous souhaitez en savoir plus sur les mathématiques derrière, vous pouvez vérifier le 2.1. Chapitre Combinatoire du manuel en ligne Introduction à la probabilité par Hossein Pishro-Nik. Il y a aussi un cheatsheet pratique sur la page WolframMathWorld .(nk) k n (n+k−1k)
la source
Lorsque la taille de l'échantillon d'origine est trop grande et que vous ne voulez pas / ne pouvez pas former un modèle sur l'ensemble de données complet, la "bonne suggestion" n'est pas si bonne.
PS: Je voulais ajouter ceci en tant que commentaire à la question mais je ne suis pas autorisé à ajouter de commentaire ...
la source