Comprendre l'amorçage pour la validation et la sélection de modèle

13

Je pense que je comprends comment fonctionnent les principes fondamentaux du bootstrap , mais je ne suis pas sûr de comprendre comment je peux utiliser le bootstrap pour la sélection de modèle ou pour éviter le sur-ajustement.

Pour la sélection du modèle, par exemple, choisiriez-vous simplement le modèle qui génère l'erreur la plus faible (peut-être la variance?) Parmi ses échantillons de bootstrap?

Existe-t-il des textes qui expliquent comment utiliser le bootstrap pour la sélection ou la validation de modèle?

EDIT: Voir ce fil et la réponse de @ mark999 pour plus de contexte derrière cette question.

Amelio Vazquez-Reina
la source
@suncoolsu Si j'ai le choix entre les modèles A, B et C, j'utiliserais généralement la validation croisée ou le bootstrap pour choisir un modèle lorsque 1) je suis intéressé par la précision / le classement des prédictions et 2) je n'ai pas assez de données pour un maintien ensemble de validation. Pourquoi ne serait-ce pas une bonne idée (et je sais que la validation imbriquée est importante pour la sélection des fonctionnalités, etc.).
B_Miner
La réponse de @ mark999 dans ce fil suggère la validation bootstrap comme une solution pour apprendre un modèle sur l'ensemble de données complet tout en faisant face au sur-ajustement. Cette réponse est ce qui a inspiré cette question dans une large mesure, et la question d'origine dans ce fil devrait également ajouter du contexte à cette question.
Amelio Vazquez-Reina
1
Je suis désolé - c'est probablement moi qui suis statisticien - mais je pense que la validation croisée et le bootstrap sont deux choses différentes. La validation croisée est excellente et doit être effectuée (et le bootstrap également). Mais si vous êtes dans des scénarios comme choisir entre A, B, C (seulement trois modèles), BIC peut être un meilleur choix. Comme je l'ai dit, la solution dépend du problème à résoudre et plusieurs approches peuvent être appropriées.
suncoolsu
2
AIC donne généralement moins de sous-ajustement que BIC.
Frank Harrell

Réponses:

14

Vous devez d'abord décider si vous avez vraiment besoin d'une sélection de modèle, ou si vous avez juste besoin de modéliser. Dans la majorité des situations, selon la dimensionnalité, l'ajustement d'un modèle complet flexible est préférable.

Le bootstrap est un excellent moyen d'estimer les performances d'un modèle. La chose la plus simple à estimer est la variance. Plus à votre point d'origine, le bootstrap peut estimer les performances futures probables d'une procédure de modélisation donnée, sur de nouvelles données non encore réalisées.

Si vous utilisez le rééchantillonnage (bootstrap ou validation croisée) pour choisir les paramètres de réglage du modèle et pour estimer le modèle, vous aurez besoin d'un double bootstrap ou d'une validation croisée imbriquée.

En général, le bootstrap nécessite moins d'ajustements de modèle (souvent environ 300) que la validation croisée (la validation croisée 10 fois doit être répétée 50 à 100 fois pour la stabilité).

Certaines études de simulation peuvent être consultées sur http://biostat.mc.vanderbilt.edu/rms

Frank Harrell
la source
2
Wow, je ne savais pas qu'un CV multiplié par 10 devait être répété 50 à 100 fois! Je vais devoir revoir mon dernier projet et essayer à la place de tester le bootstrap. J'adore ce site: j'apprends quelque chose tous les jours!
Wayne
Merci @Frank! Supposons que je dispose d'un ensemble de modèles candidats avec le même nombre de paramètres. Est-ce que ceux avec une variance plus faible dans les estimations de bootstrap sont de meilleurs candidats (en supposant que la perte totale ou le risque était le même pour tous) pour lutter contre le sur-ajustement?
Amelio Vazquez-Reina
Je ne suppose pas cela, mais c'est possible.
Frank Harrell
Excellente réponse, merci! Je ne savais pas que le bootstrap peut également être utilisé pour la validation de modèle ET la validation croisée doit être répétée plusieurs fois. Je vois un autre avantage de cette méthode: la validation croisée nécessite de déterminer (subjectivement) au préalable le nombre de plis, typiquement 10, ce qui est plus ou moins heuristique plutôt qu'optimal. Mais bien que ce soit une excellente méthode, pourquoi elle ne semble pas aussi populaire que la validation croisée?
SiXUlm
La validation du modèle de bootstrap est assez populaire, mais la validation croisée existe depuis plus longtemps. Mais comme vous l'avez dit, il y a un certain arbitraire dans le choix des # plis dans le cv.
Frank Harrell
3

Pensez à utiliser le bootstrap pour la moyenne du modèle .

Le document ci-dessous pourrait aider, car il compare une approche de moyenne du modèle bootstrap à la moyenne de modélisation bayésienne (la plus couramment utilisée?) Et présente une recette pour effectuer la moyenne du modèle.

Moyenne du modèle bootstrap dans les études chronologiques de la pollution atmosphérique et de la mortalité des particules

Josh Hemann
la source
Je ne recommanderais pas le bootstrap pour la moyenne des modèles dans la plupart des cas. Le bootstrap est le meilleur pour vous dire comment une procédure de modélisation fonctionne, plutôt que de vous dire comment créer une nouvelle procédure. Il existe cependant des exceptions.
Frank Harrell
@Frank Harrell - D'accord. L'article auquel j'ai fait référence s'applique parfois au domaine dans lequel je travaille et j'ai utilisé le bootstrap pour le scénario que vous avez indiqué: évaluer la variabilité d'un modèle particulier en raison d'une erreur d'échantillonnage. Mais l'incertitude due à la sélection du modèle lui-même est encore plus difficile à évaluer et l'approche de moyenne du modèle bootstrap pourrait être utile, en particulier pour les praticiens comme moi qui n'ont pas l'expérience / les antécédents pour reformuler les problèmes de moyenne du modèle bayésien.
Josh Hemann
2
Non, je dirais que le bootstrap est excellent pour donner une évaluation des dommages causés par la méconnaissance du modèle à l'avance. Cela ne signifie pas que vous devez nécessairement utiliser le bootstrap pour améliorer les choses, comme la moyenne sur un ensemble de modèles incertains. Si vous devez utiliser le bootstrap de cette manière, vous aurez besoin d'un double bootstrap pour obtenir une évaluation honnête des performances du modèle moyen. Je dois noter que les forêts aléatoires sont une forme de moyenne de modèle utilisant le bootstrap.
Frank Harrell
Bon point sur le double bootstrap. Les auteurs de l'article que j'ai référencé ont un article de suivi à ce sujet: Moyenne du modèle Bootstrap-après-Bootstrap pour réduire l'incertitude du modèle dans la sélection des modèles pour les études de mortalité par pollution atmosphérique
Josh Hemann
Bien. N'oubliez pas que c'est souvent une exagération. Il est souvent préférable de poser un modèle complet axé sur le sujet et d'utiliser le retrait (pénalisation) s'il est trop adapté; mais c'est toujours un modèle.
Frank Harrell