Je me demandais comment les Bayésiens de la communauté CrossValidated perçoivent le problème de l' incertitude du modèle et comment ils préfèrent y faire face? Je vais essayer de poser ma question en deux parties:
Dans quelle mesure (selon votre expérience / votre opinion) traite-t-on de l'incertitude du modèle? Je n'ai trouvé aucun article traitant de ce problème dans la communauté de l'apprentissage automatique, alors je me demande simplement pourquoi.
Quelles sont les approches courantes pour gérer l'incertitude du modèle (points bonus si vous fournissez des références)? J'ai entendu parler de la moyenne du modèle bayésien, bien que je ne connaisse pas les techniques / limites spécifiques de cette approche. Quels sont les autres et pourquoi préférez-vous les uns les autres?
la source
Réponses:
Il y a deux cas qui se posent en traitant de la sélection de modèle:
Lorsque le vrai modèle appartient à l'espace objet.
C'est très simple à gérer avec BIC . Des résultats montrent que BIC sélectionnera le vrai modèle avec une forte probabilité.
Cependant, dans la pratique, il est très rare que nous connaissions le vrai modèle. Je dois remarquer que BIC a tendance à être mal utilisé à cause de cela (la raison probable est son apparence similaire à AIC ) . Ces questions ont déjà été abordées sur ce forum sous diverses formes. Une bonne discussion est ici .
Lorsque le vrai modèle n'est pas dans l'espace objet.
Il s'agit d'un domaine de recherche actif dans la communauté bayésienne. Cependant, il est confirmé que les gens savent que l'utilisation du BIC comme critère de sélection de modèle dans ce cas est dangereuse. La littérature récente en analyse de données de grande dimension le montre. Un tel exemple est ce . Le facteur Bayes fonctionne certainement étonnamment bien dans les dimensions élevées. Plusieurs modifications du BIC ont été proposées, comme le mBIC, mais il n'y a pas de consensus. Le RJMCMC de Green est une autre façon populaire de faire la sélection de modèles bayésiens, mais il a ses propres défauts. Vous pouvez en savoir plus à ce sujet.
Il existe un autre camp dans le monde bayésien qui recommande la moyenne des modèles. Être remarquable, Dr. Raftery.
Moyenne du modèle bayésien.
Ce site Web de Chris Volinksy est une source complète de modèles bayésiens avérés. Quelques autres travaux sont ici .
Encore une fois, la sélection de modèles bayésiens est toujours un domaine de recherche actif et vous pouvez obtenir des réponses très différentes selon la personne à qui vous demandez.
la source
Un «vrai» bayésien traiterait de l'incertitude du modèle en marginalisant (intégrant) tous les modèles plausibles. Ainsi, par exemple, dans un problème de régression de crête linéaire, vous marginaliseriez les paramètres de régression (qui auraient un postérieur gaussien, donc cela pourrait être fait analytiquement), mais vous marginaliseriez ensuite les hyper-paramètres (niveau de bruit et paramètre de régularisation) via par exemple MCMC méthodes.
Une solution bayésienne «moindre» consisterait à marginaliser les paramètres du modèle, mais à optimiser les hyperparamètres en maximisant la vraisemblance marginale (également appelée «preuve bayésienne») pour le modèle. Cependant, cela peut conduire à plus de sur-ajustement que prévu (voir par exemple Cawley et Talbot ). Voir le travail de David MacKay pour des informations sur la maximisation des preuves dans l'apprentissage automatique. Pour comparaison, voir les travaux de Radford Neal sur l'approche «tout intégrer» à des problèmes similaires. Notez que le cadre de preuves est très pratique pour les situations où l'intégration est trop coûteuse en termes de calcul, il y a donc place pour les deux approches.
Les Bayésiens s’intègrent plutôt qu’optimisent. Idéalement, nous exprimerions notre croyance antérieure concernant les caractéristiques de la solution (par exemple la fluidité) et ferions des prédictions de manière notoionnelle sans réellement faire de modèle. Les «modèles» de processus gaussiens utilisés dans l'apprentissage automatique sont un exemple de cette idée, où la fonction de covariance code notre croyance antérieure concernant la solution. Voir l'excellent livre de Rasmussen et Williams .
Pour les Bayésiens pratiques, il y a toujours une validation croisée, c'est difficile à battre pour la plupart des choses!
la source
L'une des choses intéressantes que je trouve dans le monde de "l'incertitude du modèle" est cette notion de "vrai modèle". Cela signifie implicitement que nos "propositions modèles" sont de la forme:
L'exhaustivité est cruciale ici, car cela garantit que les probabilités s'ajoutent à 1, ce qui signifie que nous pouvons marginaliser le modèle.
Mais tout cela est au niveau conceptuel - la moyenne du modèle a de bonnes performances. Cela signifie donc qu'il doit y avoir un meilleur concept.
Personnellement, je considère les modèles comme des outils, comme un marteau ou une perceuse. Les modèles sont des constructions mentales utilisées pour faire des prédictions ou décrire des choses que nous pouvons observer. Il semble très étrange de parler d'un "vrai marteau" et tout aussi bizarre de parler d'une "véritable construction mentale". Sur cette base, la notion de "vrai modèle" me semble bizarre. Il semble beaucoup plus naturel de penser aux "bons" modèles et aux "mauvais" modèles, plutôt qu'aux "bons" modèles et aux "mauvais" modèles.
De ce point de vue, nous pourrions également être incertains quant au «meilleur» modèle à utiliser, à partir d'une sélection de modèles. Supposons donc que nous raisonnions plutôt sur la proposition:
Cependant, dans cette approche, vous avez besoin d'une sorte de mesure de la qualité de l'ajustement, afin d'évaluer la qualité de votre «meilleur» modèle. Cela peut se faire de deux manières, en testant contre des modèles «sûrs», ce qui équivaut aux statistiques habituelles du GoF (divergence KL, chi carré, etc.). Une autre façon d'évaluer cela est d'inclure un modèle extrêmement flexible dans votre classe de modèles - peut-être un modèle de mélange normal avec des centaines de composants, ou un mélange de processus Dirichlet. Si ce modèle apparaît comme le meilleur, il est probable que vos autres modèles soient inadéquats.
Cet article a une bonne discussion théorique et passe en revue, étape par étape, un exemple de la façon dont vous effectuez réellement la sélection des modèles.
la source
Je sais que les gens utilisent le DIC et le facteur Bayes, comme l'a dit suncoolsu. Et j'étais intéressé quand il a dit "Il y a des résultats qui montrent que BIC sélectionnera le vrai modèle avec une forte probabilité" (références?). Mais j'utilise la seule chose que je connaisse, qui est le contrôle prédictif postérieur, défendu par Andrew Gelman. Si vous google Andrew Gelman et les vérifications prédictives postérieures, vous trouverez beaucoup de choses. Et j'aimerais jeter un coup d'œil à ce que Christian Robert écrit sur ABC sur le choix du modèle . En tout cas, voici quelques références que j'aime, et quelques articles récents dans le blog de Gelman:
Blog
DIC et AIC ; Plus d'informations sur DIC . Vérification du modèle et validation externe
Articles sur les contrôles prédictifs postérieurs:
GELMAN, Andrew. (2003a). «Une formulation bayésienne de l'analyse exploratoire des données et des tests d'ajustement». Revue statistique internationale, vol. 71, n.2, pp. 389-382.
GELMAN, Andrew. (2003b). «Analyse exploratoire des données pour les modèles complexes». Journal of Computational and Graphic Statistics, vol. 13, n. 4, pages 755/779.
GELMAN, Andrew; MECHELEN, Iven Van; VERBEKE, Geert; HEITJAN, Daniel F .; MEULDERS, Michel. (2005). «Imputation multiple pour la vérification du modèle: tracés de données terminés avec données manquantes et latentes». Biométrie 61, 74–85, mars
GELMAN, Andrew; MENG, Xiao-Li; STERN, Hal. (1996). «Évaluation prédictive postérieure de l'aptitude du modèle via des écarts réalisés». Statistica Sinica, 6, pp. 733-807.
la source