Je pense que je comprends comment fonctionnent les principes fondamentaux du bootstrap , mais je ne suis pas sûr de comprendre comment je peux utiliser le bootstrap pour la sélection de modèle ou pour éviter le sur-ajustement.
Pour la sélection du modèle, par exemple, choisiriez-vous simplement le modèle qui génère l'erreur la plus faible (peut-être la variance?) Parmi ses échantillons de bootstrap?
Existe-t-il des textes qui expliquent comment utiliser le bootstrap pour la sélection ou la validation de modèle?
EDIT: Voir ce fil et la réponse de @ mark999 pour plus de contexte derrière cette question.
model-selection
cross-validation
bootstrap
Amelio Vazquez-Reina
la source
la source
Réponses:
Vous devez d'abord décider si vous avez vraiment besoin d'une sélection de modèle, ou si vous avez juste besoin de modéliser. Dans la majorité des situations, selon la dimensionnalité, l'ajustement d'un modèle complet flexible est préférable.
Le bootstrap est un excellent moyen d'estimer les performances d'un modèle. La chose la plus simple à estimer est la variance. Plus à votre point d'origine, le bootstrap peut estimer les performances futures probables d'une procédure de modélisation donnée, sur de nouvelles données non encore réalisées.
Si vous utilisez le rééchantillonnage (bootstrap ou validation croisée) pour choisir les paramètres de réglage du modèle et pour estimer le modèle, vous aurez besoin d'un double bootstrap ou d'une validation croisée imbriquée.
En général, le bootstrap nécessite moins d'ajustements de modèle (souvent environ 300) que la validation croisée (la validation croisée 10 fois doit être répétée 50 à 100 fois pour la stabilité).
Certaines études de simulation peuvent être consultées sur http://biostat.mc.vanderbilt.edu/rms
la source
Pensez à utiliser le bootstrap pour la moyenne du modèle .
Le document ci-dessous pourrait aider, car il compare une approche de moyenne du modèle bootstrap à la moyenne de modélisation bayésienne (la plus couramment utilisée?) Et présente une recette pour effectuer la moyenne du modèle.
Moyenne du modèle bootstrap dans les études chronologiques de la pollution atmosphérique et de la mortalité des particules
la source