Lors de l'utilisation du bootstrap pour l'évaluation de modèles, j'ai toujours pensé que les échantillons hors sac étaient directement utilisés comme ensemble de test. Cependant, cela ne semble pas être le cas pour l' approche obsolète de scikit-learnBootstrap
, qui semble construire l'ensemble de test à partir d'un dessin avec remplacement du sous-ensemble de données hors sac. Quel est le raisonnement statistique derrière cela? Y a-t-il des scénarios spécifiques où cette technique est meilleure que l'évaluation sur l'échantillon hors sac ou vice versa?
15
Réponses:
Les échantillons de bootstrap sont utilisés pour évaluer les performances de l'algorithme par de nombreuses itérations. Ce faisant, les performances des ensembles modifiés de manière aléatoire sont évaluées.
En revanche, lorsque vous effectuez par exemple 10 fois la validation croisée, vous effectuez seulement 10 itérations sur différents trains et ensembles de données de test.
Le lien que vous publiez est en panne, j'ai donc ajouté la description de la fonction dans la version actuelle (0.14) de sklearn
Description de la méthode
la source
Vous étiez peut-être sur quelque chose. Il semble que d'autres aient tiré sur ce même fil et ont
Bootstrap
été dépréciés en faveur d'une utilisation plus intentionnelle de laresample
méthode avec lessklearn.cross_validation
approches éprouvées commeStratifiedKFold
.la source