Est-il vrai que les Bayésiens n'ont pas besoin de jeux de test?

Si nous utilisons «le seul vrai modèle» et les «vrais prieurs» reflétant certaines informations préalables capturées de manière appropriée, alors pour autant que je sache, un bayésien n'a vraiment pas de problème de surajustement et que la distribution prédictive postérieure étant donné très peu de données sera suffisamment incertaine . Cependant, si nous utilisons une sorte de modèle choisi de manière pragmatique (c'est-à-dire que nous avons décidé que, par exemple, le taux de risque est constant dans le temps et qu'un modèle exponentiel est approprié ou par exemple qu'une covariable n'est pas dans le modèle = point avant le coefficient zéro) avec certains par défaut des priorités non informatives ou régularisantes, alors nous ne savons vraiment pas si cela s'applique toujours. Dans ce cas, le choix des (hyper-) prieurs a un certain caractère arbitraire qui peut ou non aboutir à de bonnes prédictions hors échantillon.

Ainsi, il est alors très raisonnable de se poser la question de savoir si le choix de l'hyperparamètre (= paramètres des hyperprieurs) en combinaison avec la vraisemblance choisie fonctionnera bien. En fait, vous pouvez facilement décider qu'il est judicieux de régler vos hyperparamètres pour obtenir les performances de prédiction souhaitées. De ce point de vue, un ensemble de validation (ou validation croisée) pour régler les hyperparamètres et un ensemble de test pour confirmer les performances est parfaitement logique.

Je pense que cela est étroitement lié à un certain nombre de discussions d'Andrew Gelman sur son blog (voir par exemple l' entrée de blog 1 , l' entrée de blog 2 , l' entrée de blog 3 sur LOO pour Stan et les discussions sur les vérifications prédictives postérieures), où il discute de ses préoccupations concernant la (dans un certain sens correct) prétend qu'un bayésien ne devrait pas vérifier si son modèle est logique et à propos de l'évaluation pratique du modèle bayésien.

Bien sûr, nous sommes très souvent les plus intéressés à utiliser des méthodes bayésiennes dans des contextes où il y a peu d'informations préalables et nous voulons utiliser des priors quelque peu informatifs. À ce stade, il peut devenir assez difficile de disposer de suffisamment de données pour arriver n'importe où avec la validation et l'évaluation sur un ensemble de tests.

Björn
la source

J'ai donc répondu à la question sur le sur-ajustement à laquelle vous faites référence et j'ai regardé la vidéo et lu le billet de blog. Radford Neal ne dit pas que les modèles bayésiens ne sont pas trop ajustés. Souvenons-nous que le sur-ajustement est le phénomène du bruit traité comme signal et intégré à l'estimation des paramètres. Ce n'est pas la seule source d'erreur de sélection de modèle. La discussion de Neal est plus large mais en s'aventurant dans l'idée d'une petite taille d'échantillon, il s'est aventuré dans la discussion du sur-ajustement.

Permettez-moi de réviser partiellement mon message précédent selon lequel les modèles bayésiens peuvent s'adapter à tous les modèles bayésiens, mais le faire d'une manière qui améliore la prédiction. Encore une fois, pour revenir à la définition du signal confondant avec le bruit, l'incertitude dans les méthodes bayésiennes, la distribution postérieure, est la quantification de cette incertitude quant à ce qu'est le signal et ce qu'est le bruit. Ce faisant, les méthodes bayésiennes injectent du bruit dans les estimations du signal, car l'ensemble postérieur est utilisé pour l'inférence et la prévision. Le sur-ajustement et d'autres sources d'erreur de classification du modèle est un type de problème différent dans les méthodes bayésiennes.

Pour simplifier, adoptons la structure du discours de Ma et concentrons-nous sur la régression linéaire et évitons la discussion d'apprentissage en profondeur car, comme il le souligne, les méthodes alternatives qu'il mentionne ne sont que des compositions de fonctions et il existe un lien direct entre la logique du linéaire régression et apprentissage en profondeur.

y = β_{0} + β_{1} X_{1} + β_{2} X_{2} + β_{3} X_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$

N

$N$

n_{1}, n_{2}

$n_1,n_2$

n_{1}

$n_1$

n_{2}

$n_2$

$m_1\dots{_8}$

y = β_{0} + β_{1} X_{1} + β_{2} X_{2} + β_{3} X_{3},

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3,$

y = β_{0},

$y=\beta_0,$

y = β_{0} + β_{1} X_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0} + β_{2} X_{2},

$y=\beta_0+\beta_2x_2,$

y = β_{0} + β_{3} X_{3},

$y=\beta_0+\beta_3x_3,$

y = β_{0} + β_{1} X_{1} + β_{2} X_{2},

$y=\beta_0+\beta_1x_1+\beta_2x_2,$

y = β_{0} + β_{1} X_{1} + β_{3} X_{3},

$y=\beta_0+\beta_1x_1+\beta_3x_3,$

y = β_{0} + β_{2} X_{2} + β_{3} X_{3},

$y=\beta_0+\beta_2x_2+\beta_3x_3,$

y = β_{0} + β_{1} X_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0} + β_{2} X_{2},

$y=\beta_0+\beta_2x_2,$

y = β_{0} + β_{3} X_{3} .

$y=\beta_0+\beta_3x_3.$

$n_1,$

Pour donner un exemple concret, j'ai testé 78 modèles de faillite. Sur les 78 modèles, la probabilité combinée postérieure de 76 d'entre eux était d'environ un dix-millième d'un pour cent. Les deux autres modèles étaient respectivement d'environ 54% et 46%. Heureusement, ils ne partageaient également aucune variable. Cela m'a permis de sélectionner les deux modèles et d'ignorer les 76 autres. Lorsque j'ai eu tous les points de données pour les deux, j'ai fait la moyenne de leurs prédictions en fonction des probabilités postérieures des deux modèles, en utilisant un seul modèle lorsque j'avais des points de données manquants qui empêchaient la autre. Bien que j'aie eu un ensemble d'entraînement et un ensemble de validation, ce n'était pas pour la même raison qu'un Frequentist les aurait. De plus, à la fin de chaque journée sur deux cycles économiques, j'ai mis à jour mes postérieurs avec les données de chaque jour. Cela signifiait que mon modèle à la fin de l'ensemble de validation n'était pas le modèle à la fin de l'ensemble de formation. Les modèles bayésiens n'arrêtent pas d'apprendre, contrairement aux modèles fréquentistes.

y = β_{0} + β_{1} X_{1} + β_{2} X_{2} + β_{3} X_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$

y = β_{0} + β_{1} X_{1} + β_{3} X_{3} .

$y=\beta_0+\beta_1x_1+\beta_3x_3.$

$n_2^i$

Les modèles sont des paramètres de la pensée bayésienne et en tant que tels, ils sont aléatoires ou, si vous préférez, incertains. Cette incertitude ne s'arrête pas lors du processus de validation. Il est continuellement mis à jour.

En raison des différences entre les méthodes bayésienne et fréquentiste, il existe d'autres types de cas qui doivent également être pris en considération. Le premier provient de l'inférence des paramètres, le second des prédictions formelles. Ce n'est pas la même chose dans les méthodes bayésiennes. Les méthodes bayésiennes séparent formellement l'inférence et la prise de décision. Ils séparent également l'estimation et la prévision des paramètres.

$\hat{\sigma^2}<k$

$k$ $n_2$ $n_1$

$n_1$ $n_1$ $n_2$ $n_2$

$n_1$ $\Pr(\tilde{x}=k|\mathbf{X})$ $\tilde{x}$ $\mathbf{X}$ $\theta?$ Bien qu'il existe des systèmes de prédiction Frequentist, la plupart des gens traitent les estimations ponctuelles comme les vrais paramètres et calculent les résidus. Les méthodes bayésiennes attribueraient un score à chaque prédiction par rapport à la densité prévue plutôt qu'à un seul point. Ces prédictions ne dépendent pas de paramètres différents des méthodes ponctuelles utilisées dans les solutions Frequentist.

$n_1+n_2>n_1$

S'il n'y a pas d'informations préalables significatives et si des densités prédictives fréquencistes sont utilisées plutôt que des estimations ponctuelles, alors pour un échantillon fixe, les résultats des méthodes bayésienne et fréquenciste seront identiques si un seul modèle est choisi. S'il existe des informations préalables, la méthode bayésienne aura tendance à générer des prédictions plus précises. Cette différence peut être très importante en pratique. De plus, s'il existe une moyenne du modèle, il est fort probable que la méthode bayésienne sera plus robuste. Si vous utilisez la sélection de modèle et figez les prédictions bayésiennes, il n'y a aucune différence à utiliser un modèle Frequentist utilisant des prédictions Frequentist.

J'ai utilisé un ensemble de test et de validation car mes données n'étaient pas échangeables. En conséquence, je devais résoudre deux problèmes. Le premier est similaire au rodage dans les méthodes MCMC. J'avais besoin d'un bon ensemble d'estimations de paramètres pour démarrer ma séquence de test, et j'ai donc utilisé cinquante ans de données antérieures pour obtenir une bonne densité antérieure pour commencer mon test de validation. Le deuxième problème était que j'avais besoin d'une certaine forme de période normalisée pour tester afin que le test ne soit pas remis en question. J'ai utilisé les deux cycles économiques antérieurs datés par NBER.

Dave Harris
la source

Mais alors, disons que vous avez estimé un MAP pour un modèle de régression linéaire avec des a priori "non informatifs". Cela équivaudrait à obtenir l'estimation du maximum de vraisemblance pour le modèle, donc ML n'a pas non plus besoin d'un ensemble de tests, en supposant que l'interchangeabilité?

Tim

"le sur-ajustement est le phénomène du bruit traité comme signal et intégré à l'estimation des paramètres" Je pense que cette définition est spécifique aux modèles de bruit additif. Sinon, le sur-ajustement contre le sous-ajustement n'est pas si bien défini.

Cagdas Ozgenc

@CagdasOzgenc merci. Avez-vous une modification suggérée?

Dave Harris

@Tim Je n'ai jamais mentionné l'estimateur MAP. Si vous réduisez le problème à l'estimateur MAP, vous abandonnez la robustesse. L'estimateur MAP est le point qui minimise une fonction de coût sur une densité. Cela peut être problématique pour les projections si la densité manque de statistiques suffisantes. L'estimateur MAP perdrait intrinsèquement des informations. Si vous utilisiez l'estimateur MAP, qui ne se trouve pas dans la question d'origine et qui ne fait clairement pas partie de la présentation de Ma, vous créez vous-même un ensemble de problèmes différent.

Dave Harris

@Tim L'estimateur MAP provient de la théorie de la décision bayésienne et il se superpose à l'estimation et à l'inférence bayésienne. Le MAP est pratique. Il y a un prix à payer lors du choix de la commodité. À moins que la fonction de coût tout ou rien ne soit votre véritable fonction de coût, vous remettez à la fois des informations et de la précision. Vous vous retrouvez également avec des problèmes méthodologiques différents de ceux proposés dans la présentation de Ma.

Dave Harris

Est-il vrai que les Bayésiens n'ont pas besoin de jeux de test?

Réponses: