Lorsque vous essayez de sélectionner parmi différents modèles ou le nombre de fonctionnalités à inclure, disons la prédiction, je peux penser à deux approches.
- Divisez les données en ensembles de formation et de test. Mieux encore, utilisez le bootstrapping ou la validation croisée k-fold. Entraînez-vous à chaque fois sur l'ensemble d'entraînement et calculez l'erreur sur l'ensemble d'essai. Tracer l'erreur de test par rapport au nombre de paramètres. Habituellement, vous obtenez quelque chose comme ceci:
- Calculez la probabilité du modèle en intégrant sur les valeurs des paramètres. c'est-à-dire, calculer , et tracer cela en fonction du nombre de paramètres. Nous obtenons alors quelque chose comme ceci:
Mes questions sont donc:
- Ces approches sont-elles adaptées pour résoudre ce problème (décider du nombre de paramètres à inclure dans votre modèle ou sélectionner parmi un certain nombre de modèles)?
- Sont-ils équivalents? Probablement pas. Donneront-ils le même modèle optimal sous certaines hypothèses ou dans la pratique?
- Outre la différence philosophique habituelle de spécification des connaissances antérieures dans les modèles bayésiens, etc., quels sont les avantages et les inconvénients de chaque approche? Lequel choisiriez-vous?
Mise à jour: J'ai également trouvé la question connexe sur la comparaison de l'AIC et du BIC. Il semble que ma méthode 1 est asymptotiquement équivalente à AIC et la méthode 2 est asymptotiquement liée à BIC. Mais j'y lis également que le BIC est équivalent au CV Leave-One-Out. Cela signifierait que le minimum d'erreur d'apprentissage et le maximum de vraisemblance bayésienne sont équivalents lorsque LOO CV est équivalent à K-fold CV. Un article peut-être très intéressant " Une théorie asymptotique pour la sélection de modèle linéaire " par Jun Shao se rapporte à ces questions.
la source
Réponses:
L'un ou l'autre pourrait l'être, oui. Si vous êtes intéressé à obtenir un modèle qui prédit le mieux, sur la liste des modèles que vous considérez, l'approche de fractionnement / validation croisée peut très bien le faire. Si vous souhaitez savoir lequel des modèles (dans votre liste de modèles putatifs) est en réalité celui qui génère vos données, alors la deuxième approche (évaluer la probabilité postérieure des modèles) est ce que vous voulez.
Non, ils ne sont généralement pas équivalents. Par exemple, utiliser AIC (An Information Criterion, par Akaike) pour choisir le «meilleur» modèle correspond approximativement à une validation croisée. L'utilisation du BIC (Bayesian Information Criterion) correspond à une utilisation approximative des probabilités postérieures. Ce ne sont pas les mêmes critères, il faut donc s'attendre à ce qu'ils conduisent à des choix différents, en général. Ils peuvent donner les mêmes réponses - chaque fois que le modèle qui prédit le mieux est également la vérité - mais dans de nombreuses situations, le modèle qui convient le mieux est en fait un sur-ajustement, ce qui conduit à un désaccord entre les approches.
Sont-ils d'accord dans la pratique? Cela dépend de ce que votre «pratique» implique. Essayez-le dans les deux sens et découvrez-le.
la source
L'optimisation est la racine de tout mal dans les statistiques! ; o)
Chaque fois que vous essayez de sélectionner un modèle en fonction d'un critère évalué sur un échantillon fini de données, vous introduisez un risque de sur-ajustement du critère de sélection du modèle et vous vous retrouvez avec un modèle pire que celui avec lequel vous avez commencé. La validation croisée et la vraisemblance marginale sont des critères de sélection de modèle raisonnables, mais ils dépendent tous deux d'un échantillon fini de données (comme le sont AIC et BIC - la pénalité de complexité peut aider, mais ne résout pas ce problème). J'ai trouvé que c'était un problème important dans l'apprentissage automatique, voir
D'un point de vue bayésien, il est préférable de l'intégrer sur tous les choix et paramètres du modèle. Si vous n'optimisez ou ne choisissez rien, il devient plus difficile de sur-ajuster. L'inconvénient est que vous vous retrouvez avec des intégrales difficiles, qui doivent souvent être résolues avec MCMC. Si vous voulez la meilleure performance prédictive, alors je suggérerais une approche entièrement bayésienne; si vous voulez comprendre les données, il est souvent utile de choisir un meilleur modèle. Cependant, si vous rééchantillonnez les données et vous retrouvez avec un modèle différent à chaque fois, cela signifie que la procédure d'ajustement est instable et qu'aucun des modèles n'est fiable pour comprendre les données.
Notez qu'une différence importante entre la validation croisée et les preuves est que la valeur de la probabilité marginale suppose que le modèle n'est pas mal spécifié (essentiellement la forme de base du modèle est appropriée) et peut donner des résultats trompeurs s'il l'est. La validation croisée ne fait pas une telle hypothèse, ce qui signifie qu'elle peut être un peu plus robuste.
la source