Je viens d'apprendre le concept de bootstrap, et une question naïve m'est venue à l'esprit: si nous pouvons toujours générer de nombreux échantillons bootstrap de nos données, pourquoi se donner la peine d'obtenir davantage de données "réelles"?
Je pense avoir une explication, dites-moi si j'ai raison: je pense que le processus d'amorçage réduit la variance, MAIS si mon jeu de données d'origine est faussé, alors je suis coincé avec une faible variance et un biais élevé, peu importe le nombre de répliques Je prends.
Réponses:
Le bootstrap est une méthode pour faire l'inférence d'une manière qui ne nécessite pas de supposer une forme paramétrique pour la distribution de la population. Il ne traite pas l'échantillon d'origine comme s'il s'agissait de la population, même de ceux qu'il s'agit d'un échantillonnage avec remplacement de l'échantillon d'origine. Il suppose que l'échantillonnage avec remplacement de l'échantillon original de taille n imite un échantillon de taille n d'une population plus large. Il a également de nombreuses variantes telles que le bootstrap m sur n qui rééchantillonne m time à partir d'un échantillon de taille n où m <n. Les belles propriétés du bootstrap dépendent de la théorie asymptotique. Comme d'autres l'ont mentionné, le bootstrap ne contient pas plus d'informations sur la population que ce qui est donné dans l'échantillon d'origine. Pour cette raison, cela ne fonctionne parfois pas bien dans de petits échantillons.
Dans mon livre "Bootstrap Methods: A Practitioners Guide", deuxième édition publié par Wiley en 2007, je signale des situations où le bootstrap peut échouer. Cela comprend la distribution qui n'a pas de moments finis, de petites tailles d'échantillon, l'estimation de valeurs extrêmes à partir de la distribution et l'estimation de la variance dans l'échantillonnage d'enquête où la taille de la population est N et un grand échantillon n est prélevé. Dans certains cas, les variantes du bootstrap peuvent mieux fonctionner que l'approche originale. Cela se produit avec le bootstrap m sur n dans certaines applications Dans le cas de l'estimation des taux d'erreur dans une analyse discriminante, le bootstrap 632 est une amélioration par rapport à d'autres méthodes, y compris d'autres méthodes de bootstrap.
Une raison de son utilisation est que, parfois, vous ne pouvez pas vous fier à des hypothèses paramétriques et, dans certaines situations, le bootstrap fonctionne mieux que d'autres méthodes non paramétriques. Il peut être appliqué à une grande variété de problèmes, y compris la régression non linéaire, la classification, l'estimation de l'intervalle de confiance, l'estimation du biais, l'ajustement des valeurs de p et l'analyse des séries chronologiques pour n'en nommer que quelques-uns.
la source
Un échantillon bootstrap peut seulement vous dire des choses sur l'échantillon d'origine et ne vous donnera aucune nouvelle information sur la population réelle. Il s'agit simplement d'une méthode non paramétrique pour construire des intervalles de confiance et similaires.
Si vous souhaitez obtenir plus d'informations sur la population, vous devez collecter davantage de données auprès de la population.
la source