J'ai récemment regardé cette conférence d'Eric J. Ma et vérifié son entrée sur le blog , où il cite Radford Neal, que les modèles bayésiens ne surajustent pas (mais ils peuvent suréquiper ) et lorsque vous les utilisez, nous n'avons pas besoin de jeux de test pour les valider (pour moi les citations semblent plutôt parler de l'utilisation de l'ensemble de validation pour ajuster les paramètres). Honnêtement, les arguments ne me convainquent pas et je n'ai pas accès au livre, alors pourriez-vous donner des arguments plus détaillés et rigoureux pour ou contre une telle déclaration?
Soit dit en passant, Eric Ma m'a dirigé cette discussion sur le même sujet.
Réponses:
Si nous utilisons «le seul vrai modèle» et les «vrais prieurs» reflétant certaines informations préalables capturées de manière appropriée, alors pour autant que je sache, un bayésien n'a vraiment pas de problème de surajustement et que la distribution prédictive postérieure étant donné très peu de données sera suffisamment incertaine . Cependant, si nous utilisons une sorte de modèle choisi de manière pragmatique (c'est-à-dire que nous avons décidé que, par exemple, le taux de risque est constant dans le temps et qu'un modèle exponentiel est approprié ou par exemple qu'une covariable n'est pas dans le modèle = point avant le coefficient zéro) avec certains par défaut des priorités non informatives ou régularisantes, alors nous ne savons vraiment pas si cela s'applique toujours. Dans ce cas, le choix des (hyper-) prieurs a un certain caractère arbitraire qui peut ou non aboutir à de bonnes prédictions hors échantillon.
Ainsi, il est alors très raisonnable de se poser la question de savoir si le choix de l'hyperparamètre (= paramètres des hyperprieurs) en combinaison avec la vraisemblance choisie fonctionnera bien. En fait, vous pouvez facilement décider qu'il est judicieux de régler vos hyperparamètres pour obtenir les performances de prédiction souhaitées. De ce point de vue, un ensemble de validation (ou validation croisée) pour régler les hyperparamètres et un ensemble de test pour confirmer les performances est parfaitement logique.
Je pense que cela est étroitement lié à un certain nombre de discussions d'Andrew Gelman sur son blog (voir par exemple l' entrée de blog 1 , l' entrée de blog 2 , l' entrée de blog 3 sur LOO pour Stan et les discussions sur les vérifications prédictives postérieures), où il discute de ses préoccupations concernant la (dans un certain sens correct) prétend qu'un bayésien ne devrait pas vérifier si son modèle est logique et à propos de l'évaluation pratique du modèle bayésien.
Bien sûr, nous sommes très souvent les plus intéressés à utiliser des méthodes bayésiennes dans des contextes où il y a peu d'informations préalables et nous voulons utiliser des priors quelque peu informatifs. À ce stade, il peut devenir assez difficile de disposer de suffisamment de données pour arriver n'importe où avec la validation et l'évaluation sur un ensemble de tests.
la source
J'ai donc répondu à la question sur le sur-ajustement à laquelle vous faites référence et j'ai regardé la vidéo et lu le billet de blog. Radford Neal ne dit pas que les modèles bayésiens ne sont pas trop ajustés. Souvenons-nous que le sur-ajustement est le phénomène du bruit traité comme signal et intégré à l'estimation des paramètres. Ce n'est pas la seule source d'erreur de sélection de modèle. La discussion de Neal est plus large mais en s'aventurant dans l'idée d'une petite taille d'échantillon, il s'est aventuré dans la discussion du sur-ajustement.
Permettez-moi de réviser partiellement mon message précédent selon lequel les modèles bayésiens peuvent s'adapter à tous les modèles bayésiens, mais le faire d'une manière qui améliore la prédiction. Encore une fois, pour revenir à la définition du signal confondant avec le bruit, l'incertitude dans les méthodes bayésiennes, la distribution postérieure, est la quantification de cette incertitude quant à ce qu'est le signal et ce qu'est le bruit. Ce faisant, les méthodes bayésiennes injectent du bruit dans les estimations du signal, car l'ensemble postérieur est utilisé pour l'inférence et la prévision. Le sur-ajustement et d'autres sources d'erreur de classification du modèle est un type de problème différent dans les méthodes bayésiennes.
Pour simplifier, adoptons la structure du discours de Ma et concentrons-nous sur la régression linéaire et évitons la discussion d'apprentissage en profondeur car, comme il le souligne, les méthodes alternatives qu'il mentionne ne sont que des compositions de fonctions et il existe un lien direct entre la logique du linéaire régression et apprentissage en profondeur.
Pour donner un exemple concret, j'ai testé 78 modèles de faillite. Sur les 78 modèles, la probabilité combinée postérieure de 76 d'entre eux était d'environ un dix-millième d'un pour cent. Les deux autres modèles étaient respectivement d'environ 54% et 46%. Heureusement, ils ne partageaient également aucune variable. Cela m'a permis de sélectionner les deux modèles et d'ignorer les 76 autres. Lorsque j'ai eu tous les points de données pour les deux, j'ai fait la moyenne de leurs prédictions en fonction des probabilités postérieures des deux modèles, en utilisant un seul modèle lorsque j'avais des points de données manquants qui empêchaient la autre. Bien que j'aie eu un ensemble d'entraînement et un ensemble de validation, ce n'était pas pour la même raison qu'un Frequentist les aurait. De plus, à la fin de chaque journée sur deux cycles économiques, j'ai mis à jour mes postérieurs avec les données de chaque jour. Cela signifiait que mon modèle à la fin de l'ensemble de validation n'était pas le modèle à la fin de l'ensemble de formation. Les modèles bayésiens n'arrêtent pas d'apprendre, contrairement aux modèles fréquentistes.
Les modèles sont des paramètres de la pensée bayésienne et en tant que tels, ils sont aléatoires ou, si vous préférez, incertains. Cette incertitude ne s'arrête pas lors du processus de validation. Il est continuellement mis à jour.
En raison des différences entre les méthodes bayésienne et fréquentiste, il existe d'autres types de cas qui doivent également être pris en considération. Le premier provient de l'inférence des paramètres, le second des prédictions formelles. Ce n'est pas la même chose dans les méthodes bayésiennes. Les méthodes bayésiennes séparent formellement l'inférence et la prise de décision. Ils séparent également l'estimation et la prévision des paramètres.
S'il n'y a pas d'informations préalables significatives et si des densités prédictives fréquencistes sont utilisées plutôt que des estimations ponctuelles, alors pour un échantillon fixe, les résultats des méthodes bayésienne et fréquenciste seront identiques si un seul modèle est choisi. S'il existe des informations préalables, la méthode bayésienne aura tendance à générer des prédictions plus précises. Cette différence peut être très importante en pratique. De plus, s'il existe une moyenne du modèle, il est fort probable que la méthode bayésienne sera plus robuste. Si vous utilisez la sélection de modèle et figez les prédictions bayésiennes, il n'y a aucune différence à utiliser un modèle Frequentist utilisant des prédictions Frequentist.
J'ai utilisé un ensemble de test et de validation car mes données n'étaient pas échangeables. En conséquence, je devais résoudre deux problèmes. Le premier est similaire au rodage dans les méthodes MCMC. J'avais besoin d'un bon ensemble d'estimations de paramètres pour démarrer ma séquence de test, et j'ai donc utilisé cinquante ans de données antérieures pour obtenir une bonne densité antérieure pour commencer mon test de validation. Le deuxième problème était que j'avais besoin d'une certaine forme de période normalisée pour tester afin que le test ne soit pas remis en question. J'ai utilisé les deux cycles économiques antérieurs datés par NBER.
la source