Pourquoi l'ensachage utilise-t-il des échantillons de bootstrap?

10

L'ensachage est le processus de création de N apprenants sur N échantillons de bootstrap différents, puis de prise de la moyenne de leurs prédictions.

Ma question est: pourquoi ne pas utiliser un autre type d'échantillonnage? Pourquoi utiliser des échantillons bootstrap?


la source

Réponses:

9

Question interessante. Le bootstrap a de bonnes propriétés d'échantillonnage, par rapport à certaines alternatives comme le jackknife. Le principal inconvénient du bootstrap est que chaque itération doit fonctionner avec un échantillon aussi gros que l'ensemble de données d'origine (qui peut être coûteux en calcul), tandis que d'autres techniques d'échantillonnage peuvent fonctionner avec des échantillons beaucoup plus petits.

Cet article suggère que la réduction naïve de la taille de l'échantillon peut réduire les performances par rapport à l'ensachage basé sur le bootstrap, ce qui serait une raison de ne pas le faire. Le document présente également une nouvelle méthode pour utiliser des échantillons plus petits dans les estimations d'ensachage, tout en évitant ces problèmes.

David J. Harris
la source