Aborder l'incertitude du modèle

25

Je me demandais comment les Bayésiens de la communauté CrossValidated perçoivent le problème de l' incertitude du modèle et comment ils préfèrent y faire face? Je vais essayer de poser ma question en deux parties:

Dans quelle mesure (selon votre expérience / votre opinion) traite-t-on de l'incertitude du modèle? Je n'ai trouvé aucun article traitant de ce problème dans la communauté de l'apprentissage automatique, alors je me demande simplement pourquoi.
Quelles sont les approches courantes pour gérer l'incertitude du modèle (points bonus si vous fournissez des références)? J'ai entendu parler de la moyenne du modèle bayésien, bien que je ne connaisse pas les techniques / limites spécifiques de cette approche. Quels sont les autres et pourquoi préférez-vous les uns les autres?

machine-learning bayesian model-selection Entaille
la source

1

Une méthode moins populaire (mais de plus en plus populaire) est la règle de notation qui évalue la performance prédictive des modèles.

17

Il y a deux cas qui se posent en traitant de la sélection de modèle:

Lorsque le vrai modèle appartient à l'espace objet.

C'est très simple à gérer avec BIC . Des résultats montrent que BIC sélectionnera le vrai modèle avec une forte probabilité.

Cependant, dans la pratique, il est très rare que nous connaissions le vrai modèle. Je dois remarquer que BIC a tendance à être mal utilisé à cause de cela (la raison probable est son apparence similaire à AIC ) . Ces questions ont déjà été abordées sur ce forum sous diverses formes. Une bonne discussion est ici .

Lorsque le vrai modèle n'est pas dans l'espace objet.

Il s'agit d'un domaine de recherche actif dans la communauté bayésienne. Cependant, il est confirmé que les gens savent que l'utilisation du BIC comme critère de sélection de modèle dans ce cas est dangereuse. La littérature récente en analyse de données de grande dimension le montre. Un tel exemple est ce . Le facteur Bayes fonctionne certainement étonnamment bien dans les dimensions élevées. Plusieurs modifications du BIC ont été proposées, comme le mBIC, mais il n'y a pas de consensus. Le RJMCMC de Green est une autre façon populaire de faire la sélection de modèles bayésiens, mais il a ses propres défauts. Vous pouvez en savoir plus à ce sujet.

Il existe un autre camp dans le monde bayésien qui recommande la moyenne des modèles. Être remarquable, Dr. Raftery.

Moyenne du modèle bayésien.

Ce site Web de Chris Volinksy est une source complète de modèles bayésiens avérés. Quelques autres travaux sont ici .

Encore une fois, la sélection de modèles bayésiens est toujours un domaine de recherche actif et vous pouvez obtenir des réponses très différentes selon la personne à qui vous demandez.

suncoolsu
la source

\log | A_{n} | \approx \log | n A_{1} | = p \log n + \log | A_{1} |

$\log|A_n|\approx\log|nA_1|=p\log n+\log|A_1|$

A_{n}

$A_n$

A_{1}

$A_1$

\log | A_{1} | = O (1)

$\log|A_1|=O(1)$

il pourrait aussi être due à l'approximation de Laplace des performances médiocres et

probabilityislogic

11

Un «vrai» bayésien traiterait de l'incertitude du modèle en marginalisant (intégrant) tous les modèles plausibles. Ainsi, par exemple, dans un problème de régression de crête linéaire, vous marginaliseriez les paramètres de régression (qui auraient un postérieur gaussien, donc cela pourrait être fait analytiquement), mais vous marginaliseriez ensuite les hyper-paramètres (niveau de bruit et paramètre de régularisation) via par exemple MCMC méthodes.

Une solution bayésienne «moindre» consisterait à marginaliser les paramètres du modèle, mais à optimiser les hyperparamètres en maximisant la vraisemblance marginale (également appelée «preuve bayésienne») pour le modèle. Cependant, cela peut conduire à plus de sur-ajustement que prévu (voir par exemple Cawley et Talbot ). Voir le travail de David MacKay pour des informations sur la maximisation des preuves dans l'apprentissage automatique. Pour comparaison, voir les travaux de Radford Neal sur l'approche «tout intégrer» à des problèmes similaires. Notez que le cadre de preuves est très pratique pour les situations où l'intégration est trop coûteuse en termes de calcul, il y a donc place pour les deux approches.

Les Bayésiens s’intègrent plutôt qu’optimisent. Idéalement, nous exprimerions notre croyance antérieure concernant les caractéristiques de la solution (par exemple la fluidité) et ferions des prédictions de manière notoionnelle sans réellement faire de modèle. Les «modèles» de processus gaussiens utilisés dans l'apprentissage automatique sont un exemple de cette idée, où la fonction de covariance code notre croyance antérieure concernant la solution. Voir l'excellent livre de Rasmussen et Williams .

Pour les Bayésiens pratiques, il y a toujours une validation croisée, c'est difficile à battre pour la plupart des choses!

Dikran Marsupial
la source

11

L'une des choses intéressantes que je trouve dans le monde de "l'incertitude du modèle" est cette notion de "vrai modèle". Cela signifie implicitement que nos "propositions modèles" sont de la forme:

M_{je}^{(1)} : Le ième modèle est le vrai modèle

$M_i^{(1)}:\text{The ith model is the true model}$

$P(M_i^{(1)}|DI)$ $M_i^{(1)}$ propositions sont exhaustives. Pour tout ensemble de modèles que vous pouvez produire, il existe certainement un modèle alternatif auquel vous n'avez pas encore pensé. Et il en va de la régression infinie ...

L'exhaustivité est cruciale ici, car cela garantit que les probabilités s'ajoutent à 1, ce qui signifie que nous pouvons marginaliser le modèle.

Mais tout cela est au niveau conceptuel - la moyenne du modèle a de bonnes performances. Cela signifie donc qu'il doit y avoir un meilleur concept.

Personnellement, je considère les modèles comme des outils, comme un marteau ou une perceuse. Les modèles sont des constructions mentales utilisées pour faire des prédictions ou décrire des choses que nous pouvons observer. Il semble très étrange de parler d'un "vrai marteau" et tout aussi bizarre de parler d'une "véritable construction mentale". Sur cette base, la notion de "vrai modèle" me semble bizarre. Il semble beaucoup plus naturel de penser aux "bons" modèles et aux "mauvais" modèles, plutôt qu'aux "bons" modèles et aux "mauvais" modèles.

De ce point de vue, nous pourrions également être incertains quant au «meilleur» modèle à utiliser, à partir d'une sélection de modèles. Supposons donc que nous raisonnions plutôt sur la proposition:

M_{je}^{(2)} : Sur tous les modèles qui ont été spécifiés,

$M_i^{(2)}:\text{Out of all the models that have been specified,}$

le ième modèle est le meilleur modèle à utiliser

$\text{the ith model is best model to use}$

$M_{i}^{(2)}$ $M_{i}^{(2)}$

Cependant, dans cette approche, vous avez besoin d'une sorte de mesure de la qualité de l'ajustement, afin d'évaluer la qualité de votre «meilleur» modèle. Cela peut se faire de deux manières, en testant contre des modèles «sûrs», ce qui équivaut aux statistiques habituelles du GoF (divergence KL, chi carré, etc.). Une autre façon d'évaluer cela est d'inclure un modèle extrêmement flexible dans votre classe de modèles - peut-être un modèle de mélange normal avec des centaines de composants, ou un mélange de processus Dirichlet. Si ce modèle apparaît comme le meilleur, il est probable que vos autres modèles soient inadéquats.

Cet article a une bonne discussion théorique et passe en revue, étape par étape, un exemple de la façon dont vous effectuez réellement la sélection des modèles.

probabilitéislogique
la source

Un gros +1. Analyse très réfléchie et claire.

whuber

Très bonne réponse. Je dois mentionner qu'à en juger par une classe spécifique de modèles, BIC est génial. Cependant, la plupart du temps, comme vous le mentionnez, le vrai modèle est en dehors de l'espace objet. Puis, encore une fois comme vous le mentionnez, la proximité entre le vrai modèle et le "meilleur modèle" prend tout son sens. Ce sont les réponses auxquelles l'AIC et les autres CI essaient de répondre. BMA fonctionne, mais il a également montré qu'il ne fonctionnait pas. Cela ne veut pas dire que c'est mauvais, mais nous devons être prudents lorsque nous considérons cela comme une alternative universelle.

suncoolsu

1

C R A P = C R A P = \frac{1}{N} \sum_{i = 1}^{N} C R A P_{i}

$CRAP=CRAP=\frac{1}{N}\sum_{i=1}^{N} CRAP_i$

4

Je sais que les gens utilisent le DIC et le facteur Bayes, comme l'a dit suncoolsu. Et j'étais intéressé quand il a dit "Il y a des résultats qui montrent que BIC sélectionnera le vrai modèle avec une forte probabilité" (références?). Mais j'utilise la seule chose que je connaisse, qui est le contrôle prédictif postérieur, défendu par Andrew Gelman. Si vous google Andrew Gelman et les vérifications prédictives postérieures, vous trouverez beaucoup de choses. Et j'aimerais jeter un coup d'œil à ce que Christian Robert écrit sur ABC sur le choix du modèle . En tout cas, voici quelques références que j'aime, et quelques articles récents dans le blog de Gelman:

Blog

DIC et AIC ; Plus d'informations sur DIC . Vérification du modèle et validation externe

Articles sur les contrôles prédictifs postérieurs:

GELMAN, Andrew. (2003a). «Une formulation bayésienne de l'analyse exploratoire des données et des tests d'ajustement». Revue statistique internationale, vol. 71, n.2, pp. 389-382.

GELMAN, Andrew. (2003b). «Analyse exploratoire des données pour les modèles complexes». Journal of Computational and Graphic Statistics, vol. 13, n. 4, pages 755/779.

GELMAN, Andrew; MECHELEN, Iven Van; VERBEKE, Geert; HEITJAN, Daniel F .; MEULDERS, Michel. (2005). «Imputation multiple pour la vérification du modèle: tracés de données terminés avec données manquantes et latentes». Biométrie 61, 74–85, mars

GELMAN, Andrew; MENG, Xiao-Li; STERN, Hal. (1996). «Évaluation prédictive postérieure de l'aptitude du modèle via des écarts réalisés». Statistica Sinica, 6, pp. 733-807.

Manoel Galdino
la source

Aborder l'incertitude du modèle

Réponses: