Avantages et inconvénients du bootstrapping

11

Je viens d'apprendre le concept de bootstrap, et une question naïve m'est venue à l'esprit: si nous pouvons toujours générer de nombreux échantillons bootstrap de nos données, pourquoi se donner la peine d'obtenir davantage de données "réelles"?

Je pense avoir une explication, dites-moi si j'ai raison: je pense que le processus d'amorçage réduit la variance, MAIS si mon jeu de données d'origine est faussé, alors je suis coincé avec une faible variance et un biais élevé, peu importe le nombre de répliques Je prends.

Noale
la source
4
le bootstrapping ne crée pas plus d' informations que ce qui est déjà dans les données (et le modèle) ... les données réelles peuvent vous donner plus d'informations
Glen_b -Reinstate Monica
2
Je suis d'accord avec Glen_b qu'il ne crée pas plus d'informations mais je ne suis pas d'accord qu'il peut vous donner moins d'informations. Comme je l'ai dit dans ma réponse, cela ne fonctionne pas toujours bien, mais cela peut être dit de n'importe quelle méthode statistique.
Michael R. Chernick
1
Question intéressante - peut-être qu'un concept connexe est pourquoi le bootstrap fonctionne-t-il? . Comprendre cela vous aidera à savoir quand c'est utile. J'ai considéré le bootstrap comme une amélioration par rapport à l'approximation normale pour les distributions d'échantillonnage. Il peut gérer des écarts de normalité qui ne sont pas trop extrêmes. L'autre caractéristique intéressante est que vous n'avez pas besoin de faire de travail analytique / algébrique - la réplication le fait pour vous.
probabilitéislogic

Réponses:

15

Le bootstrap est une méthode pour faire l'inférence d'une manière qui ne nécessite pas de supposer une forme paramétrique pour la distribution de la population. Il ne traite pas l'échantillon d'origine comme s'il s'agissait de la population, même de ceux qu'il s'agit d'un échantillonnage avec remplacement de l'échantillon d'origine. Il suppose que l'échantillonnage avec remplacement de l'échantillon original de taille n imite un échantillon de taille n d'une population plus large. Il a également de nombreuses variantes telles que le bootstrap m sur n qui rééchantillonne m time à partir d'un échantillon de taille n où m <n. Les belles propriétés du bootstrap dépendent de la théorie asymptotique. Comme d'autres l'ont mentionné, le bootstrap ne contient pas plus d'informations sur la population que ce qui est donné dans l'échantillon d'origine. Pour cette raison, cela ne fonctionne parfois pas bien dans de petits échantillons.

Dans mon livre "Bootstrap Methods: A Practitioners Guide", deuxième édition publié par Wiley en 2007, je signale des situations où le bootstrap peut échouer. Cela comprend la distribution qui n'a pas de moments finis, de petites tailles d'échantillon, l'estimation de valeurs extrêmes à partir de la distribution et l'estimation de la variance dans l'échantillonnage d'enquête où la taille de la population est N et un grand échantillon n est prélevé. Dans certains cas, les variantes du bootstrap peuvent mieux fonctionner que l'approche originale. Cela se produit avec le bootstrap m sur n dans certaines applications Dans le cas de l'estimation des taux d'erreur dans une analyse discriminante, le bootstrap 632 est une amélioration par rapport à d'autres méthodes, y compris d'autres méthodes de bootstrap.

Une raison de son utilisation est que, parfois, vous ne pouvez pas vous fier à des hypothèses paramétriques et, dans certaines situations, le bootstrap fonctionne mieux que d'autres méthodes non paramétriques. Il peut être appliqué à une grande variété de problèmes, y compris la régression non linéaire, la classification, l'estimation de l'intervalle de confiance, l'estimation du biais, l'ajustement des valeurs de p et l'analyse des séries chronologiques pour n'en nommer que quelques-uns.

Michael R. Chernick
la source
6

Un échantillon bootstrap peut seulement vous dire des choses sur l'échantillon d'origine et ne vous donnera aucune nouvelle information sur la population réelle. Il s'agit simplement d'une méthode non paramétrique pour construire des intervalles de confiance et similaires.

Si vous souhaitez obtenir plus d'informations sur la population, vous devez collecter davantage de données auprès de la population.

einar
la source