Est-il vrai que les Bayésiens n'ont pas besoin de jeux de test?

9

J'ai récemment regardé cette conférence d'Eric J. Ma et vérifié son entrée sur le blog , où il cite Radford Neal, que les modèles bayésiens ne surajustent pas (mais ils peuvent suréquiper ) et lorsque vous les utilisez, nous n'avons pas besoin de jeux de test pour les valider (pour moi les citations semblent plutôt parler de l'utilisation de l'ensemble de validation pour ajuster les paramètres). Honnêtement, les arguments ne me convainquent pas et je n'ai pas accès au livre, alors pourriez-vous donner des arguments plus détaillés et rigoureux pour ou contre une telle déclaration?

Soit dit en passant, Eric Ma m'a dirigé cette discussion sur le même sujet.

Tim
la source
3
Un trou majeur dans cet argument en ce qui concerne cet exposé: si vous faites MCMC, si vous n'explorez pas complètement la partie postérieure, votre inférence est totalement invalide. Si vous faites l'inférence sur un réseau neuronal bayésien, vous n'avez certainement pas exploré de très grandes portions de la partie postérieure à l'aide de MCMC. Par conséquent, vous feriez mieux de diviser vos données pour vérifier votre inférence!
Cliff AB
une chose à considérer est ce que nous évaluons ou validons? il se peut que nous n'utilisions pas toutes les informations dont nous disposons (que ce soit préalablement ou vraisemblablement). vérifier l'ajustement du modèle peut aider à répondre à cette question.
probabilitéislogic

Réponses:

5

Si nous utilisons «le seul vrai modèle» et les «vrais prieurs» reflétant certaines informations préalables capturées de manière appropriée, alors pour autant que je sache, un bayésien n'a vraiment pas de problème de surajustement et que la distribution prédictive postérieure étant donné très peu de données sera suffisamment incertaine . Cependant, si nous utilisons une sorte de modèle choisi de manière pragmatique (c'est-à-dire que nous avons décidé que, par exemple, le taux de risque est constant dans le temps et qu'un modèle exponentiel est approprié ou par exemple qu'une covariable n'est pas dans le modèle = point avant le coefficient zéro) avec certains par défaut des priorités non informatives ou régularisantes, alors nous ne savons vraiment pas si cela s'applique toujours. Dans ce cas, le choix des (hyper-) prieurs a un certain caractère arbitraire qui peut ou non aboutir à de bonnes prédictions hors échantillon.

Ainsi, il est alors très raisonnable de se poser la question de savoir si le choix de l'hyperparamètre (= paramètres des hyperprieurs) en combinaison avec la vraisemblance choisie fonctionnera bien. En fait, vous pouvez facilement décider qu'il est judicieux de régler vos hyperparamètres pour obtenir les performances de prédiction souhaitées. De ce point de vue, un ensemble de validation (ou validation croisée) pour régler les hyperparamètres et un ensemble de test pour confirmer les performances est parfaitement logique.

Je pense que cela est étroitement lié à un certain nombre de discussions d'Andrew Gelman sur son blog (voir par exemple l' entrée de blog 1 , l' entrée de blog 2 , l' entrée de blog 3 sur LOO pour Stan et les discussions sur les vérifications prédictives postérieures), où il discute de ses préoccupations concernant la (dans un certain sens correct) prétend qu'un bayésien ne devrait pas vérifier si son modèle est logique et à propos de l'évaluation pratique du modèle bayésien.

Bien sûr, nous sommes très souvent les plus intéressés à utiliser des méthodes bayésiennes dans des contextes où il y a peu d'informations préalables et nous voulons utiliser des priors quelque peu informatifs. À ce stade, il peut devenir assez difficile de disposer de suffisamment de données pour arriver n'importe où avec la validation et l'évaluation sur un ensemble de tests.

Björn
la source
2

J'ai donc répondu à la question sur le sur-ajustement à laquelle vous faites référence et j'ai regardé la vidéo et lu le billet de blog. Radford Neal ne dit pas que les modèles bayésiens ne sont pas trop ajustés. Souvenons-nous que le sur-ajustement est le phénomène du bruit traité comme signal et intégré à l'estimation des paramètres. Ce n'est pas la seule source d'erreur de sélection de modèle. La discussion de Neal est plus large mais en s'aventurant dans l'idée d'une petite taille d'échantillon, il s'est aventuré dans la discussion du sur-ajustement.

Permettez-moi de réviser partiellement mon message précédent selon lequel les modèles bayésiens peuvent s'adapter à tous les modèles bayésiens, mais le faire d'une manière qui améliore la prédiction. Encore une fois, pour revenir à la définition du signal confondant avec le bruit, l'incertitude dans les méthodes bayésiennes, la distribution postérieure, est la quantification de cette incertitude quant à ce qu'est le signal et ce qu'est le bruit. Ce faisant, les méthodes bayésiennes injectent du bruit dans les estimations du signal, car l'ensemble postérieur est utilisé pour l'inférence et la prévision. Le sur-ajustement et d'autres sources d'erreur de classification du modèle est un type de problème différent dans les méthodes bayésiennes.

Pour simplifier, adoptons la structure du discours de Ma et concentrons-nous sur la régression linéaire et évitons la discussion d'apprentissage en profondeur car, comme il le souligne, les méthodes alternatives qu'il mentionne ne sont que des compositions de fonctions et il existe un lien direct entre la logique du linéaire régression et apprentissage en profondeur.

y=β0+β1X1+β2X2+β3X3.
Nn1,n2n1n2

m18

y=β0+β1X1+β2X2+β3X3,
y=β0,
y=β0+β1X1,
y=β0+β2X2,
y=β0+β3X3,
y=β0+β1X1+β2X2,
y=β0+β1X1+β3X3,
y=β0+β2X2+β3X3,
y=β0+β1X1,
y=β0+β2X2,
y=β0+β3X3.

n1,

Pour donner un exemple concret, j'ai testé 78 modèles de faillite. Sur les 78 modèles, la probabilité combinée postérieure de 76 d'entre eux était d'environ un dix-millième d'un pour cent. Les deux autres modèles étaient respectivement d'environ 54% et 46%. Heureusement, ils ne partageaient également aucune variable. Cela m'a permis de sélectionner les deux modèles et d'ignorer les 76 autres. Lorsque j'ai eu tous les points de données pour les deux, j'ai fait la moyenne de leurs prédictions en fonction des probabilités postérieures des deux modèles, en utilisant un seul modèle lorsque j'avais des points de données manquants qui empêchaient la autre. Bien que j'aie eu un ensemble d'entraînement et un ensemble de validation, ce n'était pas pour la même raison qu'un Frequentist les aurait. De plus, à la fin de chaque journée sur deux cycles économiques, j'ai mis à jour mes postérieurs avec les données de chaque jour. Cela signifiait que mon modèle à la fin de l'ensemble de validation n'était pas le modèle à la fin de l'ensemble de formation. Les modèles bayésiens n'arrêtent pas d'apprendre, contrairement aux modèles fréquentistes.

y=β0+β1X1+β2X2+β3X3.
y=β0+β1X1+β3X3.

n2je

Les modèles sont des paramètres de la pensée bayésienne et en tant que tels, ils sont aléatoires ou, si vous préférez, incertains. Cette incertitude ne s'arrête pas lors du processus de validation. Il est continuellement mis à jour.

En raison des différences entre les méthodes bayésienne et fréquentiste, il existe d'autres types de cas qui doivent également être pris en considération. Le premier provient de l'inférence des paramètres, le second des prédictions formelles. Ce n'est pas la même chose dans les méthodes bayésiennes. Les méthodes bayésiennes séparent formellement l'inférence et la prise de décision. Ils séparent également l'estimation et la prévision des paramètres.

σ2^<k

kn2n1

n1n1n2n2

n1Pr(X~=k|X)X~Xθ? Bien qu'il existe des systèmes de prédiction Frequentist, la plupart des gens traitent les estimations ponctuelles comme les vrais paramètres et calculent les résidus. Les méthodes bayésiennes attribueraient un score à chaque prédiction par rapport à la densité prévue plutôt qu'à un seul point. Ces prédictions ne dépendent pas de paramètres différents des méthodes ponctuelles utilisées dans les solutions Frequentist.

n1+n2>n1

S'il n'y a pas d'informations préalables significatives et si des densités prédictives fréquencistes sont utilisées plutôt que des estimations ponctuelles, alors pour un échantillon fixe, les résultats des méthodes bayésienne et fréquenciste seront identiques si un seul modèle est choisi. S'il existe des informations préalables, la méthode bayésienne aura tendance à générer des prédictions plus précises. Cette différence peut être très importante en pratique. De plus, s'il existe une moyenne du modèle, il est fort probable que la méthode bayésienne sera plus robuste. Si vous utilisez la sélection de modèle et figez les prédictions bayésiennes, il n'y a aucune différence à utiliser un modèle Frequentist utilisant des prédictions Frequentist.

J'ai utilisé un ensemble de test et de validation car mes données n'étaient pas échangeables. En conséquence, je devais résoudre deux problèmes. Le premier est similaire au rodage dans les méthodes MCMC. J'avais besoin d'un bon ensemble d'estimations de paramètres pour démarrer ma séquence de test, et j'ai donc utilisé cinquante ans de données antérieures pour obtenir une bonne densité antérieure pour commencer mon test de validation. Le deuxième problème était que j'avais besoin d'une certaine forme de période normalisée pour tester afin que le test ne soit pas remis en question. J'ai utilisé les deux cycles économiques antérieurs datés par NBER.

Dave Harris
la source
Mais alors, disons que vous avez estimé un MAP pour un modèle de régression linéaire avec des a priori "non informatifs". Cela équivaudrait à obtenir l'estimation du maximum de vraisemblance pour le modèle, donc ML n'a pas non plus besoin d'un ensemble de tests, en supposant que l'interchangeabilité?
Tim
"le sur-ajustement est le phénomène du bruit traité comme signal et intégré à l'estimation des paramètres" Je pense que cette définition est spécifique aux modèles de bruit additif. Sinon, le sur-ajustement contre le sous-ajustement n'est pas si bien défini.
Cagdas Ozgenc
@CagdasOzgenc merci. Avez-vous une modification suggérée?
Dave Harris
@Tim Je n'ai jamais mentionné l'estimateur MAP. Si vous réduisez le problème à l'estimateur MAP, vous abandonnez la robustesse. L'estimateur MAP est le point qui minimise une fonction de coût sur une densité. Cela peut être problématique pour les projections si la densité manque de statistiques suffisantes. L'estimateur MAP perdrait intrinsèquement des informations. Si vous utilisiez l'estimateur MAP, qui ne se trouve pas dans la question d'origine et qui ne fait clairement pas partie de la présentation de Ma, vous créez vous-même un ensemble de problèmes différent.
Dave Harris
@Tim L'estimateur MAP provient de la théorie de la décision bayésienne et il se superpose à l'estimation et à l'inférence bayésienne. Le MAP est pratique. Il y a un prix à payer lors du choix de la commodité. À moins que la fonction de coût tout ou rien ne soit votre véritable fonction de coût, vous remettez à la fois des informations et de la précision. Vous vous retrouvez également avec des problèmes méthodologiques différents de ceux proposés dans la présentation de Ma.
Dave Harris