Pourquoi devrais-je être bayésien quand mon modèle est faux?

68

Modifications: j'ai ajouté un exemple simple: l'inférence de la moyenne du . J'ai également légèrement expliqué pourquoi les intervalles crédibles ne correspondant pas aux intervalles de confiance sont mauvais. $X_i$

Je suis un Bayésien passionné, je suis en pleine crise de foi.

Mon problème est le suivant. Supposons que je veuille analyser certaines données IID . Ce que je ferais c'est: $X_i$

tout d'abord, proposons un modèle conditionnel:
$p (X | θ)$ $p(X|\theta)$
Ensuite, choisissez un prior sur : $\theta$
$p (θ)$ $p(\theta)$
Enfin, appliquez la règle de Bayes, calculez la valeur postérieure: (ou une approximation si elle doit être non calculable) et répondez à toutes les questions que j'ai à propos de $p(\theta | X_1 \dots X_n )$ $\theta$

C'est une approche judicieuse: si le vrai modèle des données est bien "à l'intérieur" de mon conditionnel (il correspond à une valeur ), je peux faire appel à la théorie de la décision statistique pour dire que ma méthode est admissible (voir Robert's "Le choix bayésien" pour plus de détails; "Toutes les statistiques" donne également un compte rendu clair dans le chapitre correspondant). $X_i$ $\theta_0$

Cependant, comme chacun le sait, supposer que mon modèle est correct est assez arrogant: pourquoi la nature devrait-elle entrer parfaitement dans la boîte des modèles que j'ai examinés? Il est beaucoup plus réaliste de supposer que le modèle réel des données diffère de pour toutes les valeurs de . Ceci est généralement appelé un modèle "mal spécifié". $p_{true}(X)$ $p(X|\theta)$ $\theta$

Mon problème est que, dans ce cas plus réaliste et mal spécifié, je n’ai aucun argument valable pour être bayésien (c’est-à-dire: calculer la distribution postérieure) par rapport au calcul de l’estimateur de vraisemblance maximale (MLE):

{\hat{θ}}_{M L} = \arg max_{θ} [p (X_{1} \dots X_{n} | θ)]

$\hat \theta_{ML} = \arg \max_\theta [ p(X_1 \dots X_n |\theta) ]$

En effet, selon Kleijn, vd Vaart (2012) , dans le cas mal spécifié, la distribution a posteriori:

converge comme $n\rightarrow \infty$ vers une distribution dirac centrée sur un $\hat \theta_{ML}$
n'a pas la bonne variance (à moins que deux valeurs soient identiques) afin de garantir que les intervalles crédibles des intervalles de confiance de correspondance postérieure pour $\theta$ . (Notez que, bien que les bayésiens ne se soucient pas trop des intervalles de confiance, cela signifie qualitativement que la distribution postérieure est intrinsèquement fausse, car elle implique que ses intervalles crédibles ne sont pas correctement couverts.)

Ainsi, nous payons une prime de calcul (l'inférence bayésienne, en général, est plus chère que MLE) pour aucune propriété supplémentaire

Donc, enfin, ma question: existe-t-il des arguments, qu’ils soient théoriques ou empiriques, en faveur de l’inférence bayésienne sur la variante plus simple de l’EML lorsque le modèle est mal spécifié?

(Puisque je sais que mes questions sont souvent peu claires, faites-le moi savoir si vous ne comprenez pas quelque chose: je vais essayer de le reformuler)

Edit: considérons un exemple simple: déduire la moyenne du sous un modèle gaussien (avec une variance connue pour simplifier encore plus). Nous considérons un préalable gaussien: nous notons la moyenne antérieure, la variance inverse du prior. Soit la moyenne empirique du . Enfin, notez: . $X_i$ $\sigma$ $\mu_0$ $\beta_0$ $\bar X$ $X_i$ $\mu = (\beta_0 \mu_0 + \frac{n}{\sigma^2} \bar X) / (\beta_0 + \frac{n}{\sigma^2} )$

La distribution postérieure est:

p (θ | X_{1} \dots X_{n}) \propto \exp (- (β_{0} + \frac{n}{σ^{2}}) (θ - μ)^{2} / 2)

$p(\theta |X_1 \dots X_n)\; \propto\; \exp\!\Big( - (\beta_0 + \frac{n}{\sigma^2} ) (\theta - \mu)^2 / 2\Big)$

Dans le cas correctement spécifié (lorsque les ont vraiment une distribution gaussienne), cette propriété postérieure a les propriétés intéressantes suivantes $X_i$

Si les sont générés à partir d'un modèle hiérarchique dans lequel leur moyenne partagée est choisie dans la distribution précédente, les intervalles crédibles postérieurs ont une couverture exacte. Sous réserve des données, la probabilité que se trouve dans un intervalle est égale à la probabilité que le postérieur attribue cet intervalle $X_i$ $\theta$
Même si le préalable n'est pas correct, les intervalles crédibles ont une couverture correcte dans la limite dans laquelle l'influence antérieure sur le postérieur disparaît $n\rightarrow \infty$
le postérieur a en outre de bonnes propriétés fréquentistes: tout estimateur bayésien construit à partir du postérieur est garanti, la moyenne postérieure est un estimateur efficace (au sens de Cramer-Rao) de la moyenne, les intervalles crédibles sont, asymptotiquement, des intervalles de confiance.

Dans le cas mal spécifié, la plupart de ces propriétés ne sont pas garanties par la théorie. Afin de corriger les idées, supposons que le modèle réel pour les est qu’ils sont plutôt des distributions d’étudiants. La seule propriété que nous puissions garantir (Kleijn et al) est que la distribution a posteriori se concentre sur la moyenne réelle du dans la limite . En général, toutes les propriétés de couverture disparaîtraient. Pire, en général, nous pouvons garantir que, dans cette limite, les propriétés de couverture sont fondamentalement fausses: la distribution postérieure attribue la probabilité fausse à diverses régions de l’espace. $X_i$ $X_i$ $n \rightarrow \infty$

bayesian modeling philosophical misspecification Guillaume Dehaene
la source

2

Eh bien, les approches bayésiennes se régularisent. C’est quelque chose qui aide à lutter contre la suralimentation - que votre modèle soit mal spécifié ou non. Bien sûr, cela nous amène à la question connexe des arguments en faveur de l’inférence bayésienne contre les approches classiques régularisées (lasso, régression de crête, réseau élastique, etc.).

S. Kolassa - Réintégrer Monica le

3

Vous pourriez être intéressé par ce travail et ses proches.

Dougal

7

Si votre modèle est mal spécifié en termes d'utilisation de la fonction de vraisemblance incorrecte, les estimations MLE et Bayésiennes seraient toutes deux fausses ...

Tim

5

@Tim: l'inférence MLE et bayésienne ne sont pas sans signification dans le cas mal spécifié: ils essaient tous deux de récupérer le paramètre valeur qui donne le meilleur compte des données dans les modèles conditionnels. Plus précisément, est l'argmin de où KL est la divergence de Kullback Leibler. Sous des hypothèses modérées, l'inférence bayésienne et MLE identifie correctement ce lorsqu'il dispose de suffisamment de données

{\tilde{θ}}_{0}

$\tilde \theta_0$

{\tilde{θ}}_{0}

$\tilde \theta_0$

K L [p (X), p (X | θ)]

$KL[p(X), p(X|\theta)]$

{\tilde{θ}}_{0}

$\tilde \theta_0$

Guillaume Dehaene

3

@amoeba J'imagine que le look bayésien et agit comme un commandant Che

Aksakal

31

Je considère l'approche bayésienne lorsque mon ensemble de données ne comprend pas tout ce que l'on sait sur le sujet, et je souhaite en quelque sorte incorporer cette connaissance exogène à mes prévisions.

Par exemple, mon client souhaite une prévision des défauts de paiement de son portefeuille. Ils ont 100 prêts avec quelques années de données historiques trimestrielles. Il y a eu quelques cas de délinquance (paiement tardif) et juste quelques défauts. Si j'essaie d'estimer le modèle de survie sur cet ensemble de données, ce sera très peu de données à estimer et trop d'incertitude à prévoir.

Par ailleurs, les gestionnaires de portefeuille sont des personnes expérimentées. Certaines d’entre elles ont peut-être passé des décennies à gérer leurs relations avec les emprunteurs. Ils ont des idées sur ce que devraient être les taux de défaut. Donc, ils sont capables de trouver des a priori raisonnables. Remarquez, pas les a priori qui ont de belles propriétés mathématiques et qui me plaisent intellectuellement . Je vais discuter avec eux et extraire leurs expériences et leurs connaissances sous la forme de ces prieurs.

Maintenant, le cadre bayésien me fournira les mécanismes nécessaires pour associer la connaissance exogène sous forme de prieur avec les données et obtenir l’a posterior qui est supérieur à la fois au jugement qualitatif pur et à la prévision reposant sur des données pures, à mon avis. Ce n'est pas une philosophie et je ne suis pas bayésien. J'utilise simplement les outils bayésiens pour intégrer de manière cohérente les connaissances d'experts dans l'estimation basée sur les données.

Aksakal
la source

3

Un très bon point. L'inférence bayésienne offre un cadre permettant de résoudre précisément une tâche telle que celle que vous avez présentée. Je vous remercie.

Guillaume Dehaene

5

Ceci est un argument général pour la modélisation bayésienne, mais quel rapport cela at-il avec le cas spécifique du modèle mal spécifié? Je ne vois pas de connexion.

Richard Hardy

4

Cela concerne ma question: même dans le cas mal spécifié, l’inférence bayésienne gère mieux (c’est-à-dire: de manière plus fondée sur des principes) des informations qualitatives, via les méthodes antérieures, que les méthodes MLE, qui devraient fonctionner avec des régularisateurs. C'est une forme d'argument empirique pour expliquer pourquoi l'inférence bayésienne est légèrement meilleure que MLE.

Guillaume Dehaene

2

@Aksakal, la spécification erronée des modèles est également essentielle. Ce qui me préoccupe, c'est que vous ne répondez pas à la question. (Si le PO n'est pas d'accord, alors je pense qu'il a mal formulé la question.) Mais je vois qu'il y a eu une vérification récente, alors peut-être que la question a déjà été changée.

Richard Hardy

4

@RichardHardy, je pense que ma réponse va au coeur de la crise de foi de OP qui est motivée par la pensée que si votre modèle conditionnel est mal spécifié, il l'emportera sur la taille de l'échantillon précédent et votre postérieur sera poussé vers le mauvais modèle . Dans ce cas, pourquoi se soucier de Bayesian pour commencer, pourquoi pas simplement pour MLE, demande-t-il. Mon exemple n’est décidément pas philosophique, mais pratique: vous ne traitez souvent que des échantillons finis, mais de petits échantillons. Ainsi, vos données ne seront pas trop éloignées de la précédente, ce qui représente la connaissance exogène.

Aksakal

25

Une question très intéressante ... qui n'a peut-être pas de réponse (mais qui ne la rend pas moins intéressante!)

Quelques réflexions (et de nombreux liens vers les entrées de mon blog!) À propos de ce meme que tous les modèles sont faux :

Bien que le modèle hypothétique soit en effet presque invariablement et irrémédiablement faux , il est toujours logique d’agir de manière efficace ou cohérente vis-à-vis de ce modèle si c’est ce qui est le mieux possible. L'inférence résultante produit une évaluation du modèle formel qui est "le plus proche" du modèle de génération de données réel (le cas échéant);
Il existe des approches bayésiennes qui peuvent se passer du modèle , un des exemples les plus récents étant les articles de Bissiri et al. (avec mes commentaires ) et par Watson et Holmes (dont j'ai discuté avec Judith Rousseau );
De manière connexe, il existe toute une branche des statistiques bayésiennes traitant de l' inférence M-ouverte ;
Et une autre direction que j’aime beaucoup est l’ approche SafeBayes de Peter Grünwald , qui prend en compte les erreurs de spécification du modèle pour remplacer la probabilité par une version dégradée exprimée comme une puissance de la probabilité initiale.
Le très récent Read Paper de Gelman et Hennig aborde cette question, bien que de manière contournée (et j'ai ajouté quelques commentaires sur mon blog ). Je présume que vous pourriez rassembler des éléments de votre question pour en discuter.
En un sens, les bayésiens devraient être les moins concernés par les statisticiens et les modélisateurs, car le modèle d'échantillonnage doit être considéré comme une hypothèse antérieure parmi plusieurs et le résultat est conditionnel ou relatif à toutes ces hypothèses antérieures.

Xi'an
la source

2

C'est très agréable d'avoir votre avis là-dessus. Votre premier point est intuitif: si le modèle n’est pas trop faux, le résultat de notre inférence devrait être bon. Cependant, est-ce que quelqu'un a déjà prouvé un tel résultat (ou exploré la question de manière empirique)? Votre dernier point (que j'ai peut-être mal compris) me laisse perplexe: le modèle d'échantillonnage est un choix crucial. Le fait que nous fassions également des choix ne signifie pas que des erreurs dans le choix du modèle d'échantillonnage ne peuvent altérer l'ensemble du modèle. Merci pour les références et le merveilleux blog.

Guillaume Dehaene

Pour le point 1., pourquoi ne pas faire la moyenne du modèle bayésien? Pourquoi simplement utiliser le "meilleur" modèle?

innisfree

@innisfree: tout dépend de ce que vous comptez faire avec le résultat. Je n'ai aucune religion en ce qui concerne le calcul de la moyenne des modèles par rapport au meilleur modèle.

Xi'an

1

Vous semblez suggérer qu'il existe un aspect théorique à la décision qui consiste à calculer l'incertitude d'un modèle par rapport à la sélection du "meilleur" modèle. C’est sûrement toujours avantageux, c’est-à-dire qu’il permet de prendre de meilleures décisions, d’intégrer de manière cohérente toutes les incertitudes, y compris les incertitudes des modèles.

Innisfree le

2

Mon objection principale à la non-paramétrique est pratique: ils sont plus coûteux en calcul de plusieurs ordres de grandeur par rapport aux alternatives plus simples. De plus, n’avons-nous pas aussi des problèmes avec les paramètres non paramétriques, car il est presque impossible pour deux distributions antérieures d’avoir un support commun? Cela signifie que le prieur aurait une influence considérable et qu'il serait (presque) impossible aux statisticiens bayésiens de donner leur accord à partir de prieur différents.

Guillaume Dehaene

12

Modifications: ajout d'une référence à ce document dans le corps, comme demandé par l'OP.

Je réponds ici comme un bayésien empirique naïf .

Premièrement, la distribution postérieure vous permet de faire des calculs que vous ne pouvez tout simplement pas faire avec un MLE simple. Le cas le plus simple est que le postérieur d'aujourd'hui est le prieur de demain . L'inférence bayésienne permet naturellement d'effectuer des mises à jour séquentielles, ou plus généralement en ligne ou une combinaison différée de plusieurs sources d'informations (l'incorporation d'un préalable n'est qu'un exemple manuel d'une telle combinaison). La théorie de la décision bayésienne avec une fonction de perte non triviale est un autre exemple. Je ne saurais pas quoi faire autrement.

Deuxièmement, avec cette réponse, je vais essayer de faire valoir que le mantra selon lequel la quantification de l'incertitude est généralement meilleure que l'absence d'incertitude est en réalité une question empirique, car les théorèmes (comme vous l'avez mentionné et autant que je sache) ne fournissent aucune garantie.

L'optimisation en tant que jouet modèle d'une entreprise scientifique

Un domaine qui, à mon avis, rend parfaitement compte de la complexité du problème est très pratique et sans équivoque: l’optimisation d’une fonction de boîte noire . Nous supposons que nous pouvons interroger séquentiellement un point et obtenir une observation éventuellement bruyante , avec . Notre objectif est de nous rapprocher le plus possible de avec le nombre minimal d’évaluations de fonctions. $f: \mathcal{X} \subset \mathbb{R}^D \rightarrow \mathbb{R}$ $x \in \mathcal{X}$ $y = f(x) + \varepsilon$ $\varepsilon \sim \mathcal{N}(0,\sigma^2)$ $x^* = \arg\min_x f(x)$

Comme vous pouvez vous y attendre, une méthode particulièrement efficace consiste à créer un modèle prédictif de ce qui se produirait si j’interrogeais un , et à utiliser cette information pour décider quoi faire ensuite (soit localement ou globalement). Voir Rios et Sahinidis (2013) pour une revue des méthodes d'optimisation globale sans dérivés. Lorsque le modèle est assez complexe, on appelle cela un méta-modèle ou de substitution fonction ou surface réponse approche. De manière cruciale, le modèle pourrait être une estimation ponctuelle de (par exemple, l'ajustement d'une fonction de réseau de base radiale à nos observations), ou nous pourrions être bayésiens et obtenir en quelque sorte une distribution postérieure complète sur $x^\prime \in \mathcal{X}$ $f$ $f$ (par exemple, via un processus gaussien).

L'optimisation bayésienne utilise la loi postérieure sur (en particulier, la moyenne postérieure et la variance conditionnelles communes) pour guider la recherche de l'optimum (global) via une heuristique basée sur des principes. Le choix classique consiste à maximiser l' amélioration attendue par rapport au meilleur point actuel, mais il existe des méthodes encore plus sophistiquées, telles que la minimisation de l'entropie attendue par rapport à l'emplacement du minimum (voir également ici ). $f$

Le résultat empirique est que l'accès à une méthode postérieure, même si elle est partiellement mal spécifiée, produit généralement de meilleurs résultats que d'autres méthodes. (Il existe des mises en garde et des situations dans lesquelles l'optimisation bayésienne n'est pas meilleure que la recherche aléatoire, comme dans les grandes dimensions.) Dans cet article , nous effectuons une évaluation empirique d'une nouvelle méthode BO par rapport à d'autres algorithmes d'optimisation, en vérifiant si l'utilisation de BO est pratique. en pratique, avec des résultats prometteurs.

Depuis que vous avez demandé - cela a un coût de calcul beaucoup plus élevé que d'autres méthodes non bayésiennes, et vous vous demandiez pourquoi nous devrions être bayésiens. L'hypothèse ici est que le coût impliqué dans l' évaluation de la vraie (par exemple, dans un scénario réel, une expérience d'ingénierie complexe ou l' apprentissage de la machine) est beaucoup plus grande que le coût de calcul pour l'analyse bayésienne, afin d' être bayésienne est payante . $f$

Que pouvons-nous apprendre de cet exemple?

Tout d’abord, pourquoi l’optimisation bayésienne fonctionne-t-elle? Je suppose que le modèle est faux, mais pas que mal, et comme d' habitude wrongness dépend de ce que votre modèle est pour. Par exemple, la forme exacte de n'est pas pertinente pour l'optimisation, car nous pourrions optimiser toute transformation monotone de celle-ci. Je suppose que la nature est pleine de telles invariances. Ainsi, la recherche que nous effectuons peut ne pas être optimale (c’est-à-dire que nous jetons de bonnes informations), mais elle est toujours meilleure qu’aucune information sans incertitude. $f$

Deuxièmement, notre exemple montre qu'il est possible que l'utilité d'être bayésien ou non dépende du contexte , par exemple du coût relatif et de la quantité de ressources disponibles (en calcul). (Bien sûr, si vous êtes un bayésien hardcore, vous croyez que chaque calcul est une inférence bayésienne sous une certaine approximation et / ou préalable.)

Enfin, la grande question est de savoir pourquoi les modèles que nous utilisons ne sont pas si mauvais après tout, dans le sens où les postérieurs sont toujours utiles et ne sont pas des ordures statistiques. Si nous prenons le théorème No Free Lunch, apparemment, nous ne devrions pas pouvoir en dire beaucoup, mais heureusement, nous ne vivons pas dans un monde de fonctions complètement aléatoires (ou choisies par l'adversaire ).

Plus généralement, depuis que vous avez mis la balise "philosophique" ... Je suppose que nous entrons dans le domaine du problème de l'induction, ou de l'efficacité déraisonnable des mathématiques dans les sciences statistiques (en particulier de notre intuition mathématique et de notre capacité à spécifier des modèles ce travail en pratique) - en ce sens que, d'un point de vue purement a priori, il n'y a aucune raison pour que nos suppositions soient bonnes ou aient une garantie (et que vous pouvez bien sûr construire des contre-exemples mathématiques dans lesquels les choses tournent mal), pour bien travailler dans la pratique.

lacerbi
la source

2

Réponse géniale. Merci beaucoup pour votre contribution. Existe-t-il un examen / une comparaison juste de l'optimisation bayésienne par rapport aux techniques d'optimisation normales qui montre que la version bayésienne est empiriquement meilleure, comme vous le prétendez? (Ça me convient assez de vous croire, mais une référence serait utile)

Guillaume Dehaene

1

Merci! Je pense que l' appel aux armes probabiliste en chiffres contient plusieurs arguments théoriques et empiriques. Je ne connais pas de référence comparant réellement les méthodes BO aux méthodes standard, mais [ trigger warning: plug-in effronté ], je travaille actuellement sur quelque chose dans ce sens dans le domaine de la neuroscience informatique; Je compte mettre certains des résultats sur arXiv, si tout va bien dans les prochaines semaines.

Lacerbi

En effet, au moins leur figure 2 présente une comparaison claire. Pourriez-vous s'il vous plaît ajouter votre travail à votre question principale une fois qu'il est sorti? Je pense que ce serait un ajout précieux.

Guillaume Dehaene

Oui, c’est leur méthode de quadrature bayésienne adaptative, ce qui est une idée plutôt chouette (en pratique, son efficacité dépend du fonctionnement de l’approximation de GP; ce qui est souvent presque équivalent à dire que vous avez paramétré votre problème de façon judicieuse). Je vais ajouter le lien à la réponse lorsque mon travail sera disponible, merci.

Lacerbi

1

@IMA: Désolé, je ne pense pas avoir compris votre point de vue à 100%. Je prenais l'optimisation de la boîte noire comme un modèle miniature de l'effort scientifique. Je pense que vous pouvez associer de nombreuses étapes et problèmes de "science" à ce domaine plus simple (mais toujours incroyablement complexe). L'hypothèse du "bruit gaussien" n'est pas nécessaire pour mon argumentation, c'était simplement pour des raisons de simplicité. Les problèmes d'optimisation du monde réel (par exemple, en ingénierie) peuvent être corrompus par du bruit non gaussien, et c'est un problème à résoudre. Et les processus gaussiens n’ont pas besoin de bruit d’observation gaussien (bien qu’ils facilitent l’inférence).

lacerbi

10

Je ne vois cela qu’aujourd’hui, mais je pense néanmoins que je devrais intervenir car je suis en quelque sorte un expert et qu’au moins deux réponses (n ° 3 et 20 (merci d’avoir fait référence à mon travail Xi'an!)) Mentionnent mon travail sur SafeBayes - en particulier G. et van Ommen, "Incohérence de l'inférence bayésienne pour les modèles linéaires mal spécifiés et proposition de réparation" (2014). Et j'aimerais aussi ajouter quelque chose au commentaire 2:

2 dit: (L’un des avantages de Bayes sous une spécification erronée est ...) "Eh bien, les approches bayésiennes se régularisent. C’est quelque chose qui aide à lutter contre la sur-adaptation - que votre modèle soit mal spécifié ou non. Cela pose évidemment la question connexe: arguments en faveur de l'inférence bayésienne contre les approches classiques régularisées (lasso, etc.) "

C’est vrai, mais il est crucial d’ajouter que les approches bayésiennes peuvent ne pas régulariser suffisamment si le modèle est faux. C’est l’essentiel du travail avec Van Ommen: nous voyons que la norme Bayes surestime assez terriblement dans un contexte de régression avec des modèles erronés mais très utiles. Pas aussi mauvais que MLE, mais quand même beaucoup trop pour être utile. Il existe tout un travail dans l’apprentissage automatique théorique (fréquentiste et théorique du jeu) dans lequel ils utilisent des méthodes similaires à Bayes, mais avec un «taux d’apprentissage» beaucoup plus petit, ce qui rend l’antériorité plus importante et les données moins importantes, ce qui régularise davantage. Ces méthodes sont conçues pour bien fonctionner dans les situations les plus défavorables (spécification erronée et même pire, données contradictoires) - l'approche SafeBayes est conçue pour "apprendre le taux d'apprentissage optimal" à partir des données elles-mêmes - et ce taux d'apprentissage optimal, c'est-à-dire la quantité optimale de régularisation,

Dans le même ordre d'idées, il existe un théorème folklorique (mentionné par plusieurs personnes ci-dessus) selon lequel Bayes aura la concentration postérieure sur la distribution la plus proche de la divergence de KL par rapport à la «vérité». Mais cela ne vaut que dans des conditions très strictes - BEAUCOUP plus rigoureuses que les conditions nécessaires à la convergence dans le cas bien spécifié. Si vous avez affaire à des modèles paramétriques standard de basse dimension et que les données sont classées selon une distribution (pas dans le modèle), le postérieur se concentrera en effet autour du point du modèle le plus proche de la vérité dans la divergence de KL. Maintenant, si vous avez affaire à de grands modèles non paramétriques et que le modèle est correct, alors (essentiellement) votre postérieur se concentrera toujours sur la vraie distribution avec suffisamment de données, tant que votre précédent met suffisamment de masse en petites boules KL autour de la vraie distribution. C'est lecondition faible nécessaire à la convergence dans le cas non paramétrique si le modèle est correct.

Mais si votre modèle est non paramétrique et pourtant incorrect, le postérieur peut tout simplement ne pas se concentrer autour du point KL le plus proche, même si votre précédent place une masse proche de 1 (!) - votre postérieur peut rester confus pour toujours, en se concentrant sur des distributions toujours différentes. comme le temps passe mais jamais autour du meilleur. Dans mes papiers, j'ai plusieurs exemples de ce qui se passe. Les papiers qui montrent une convergence mal spécifiée (par exemple, Kleijn et van der Vaart) nécessitent beaucoup de conditions supplémentaires, par exemple le modèle doit être convexe ou le prieur doit obéir à certaines propriétés (compliquées). C'est ce que je veux dire par «conditions strictes».

Dans la pratique, nous avons souvent affaire à des modèles dimensionnels paramétriques mais très élevés (pensez à la régression bayesienne, etc.). Ensuite, si le modèle est incorrect, votre postérieur se concentrera éventuellement sur la meilleure distribution de KL dans le modèle, mais une mini-version de l'incohérence non paramétrique est toujours valable: il peut prendre des ordres de grandeur supplémentaires avant que la convergence ne se produise. Van Ommen donne des exemples.

L’approche SafeBayes modifie les bayes standard de manière à garantir la convergence des modèles non paramétriques dans (essentiellement) les mêmes conditions que dans le cas bien spécifié, c’est-à-dire une masse antérieure suffisante proche de la distribution optimale de KL dans le modèle (G. et Mehta, 2014). ).

Ensuite, il y a la question de savoir si Bayes a même une justification sous la spécification erronée. IMHO (et comme mentionné par plusieurs personnes ci-dessus), les justifications standard de Bayes (admissibilité, Savage, De Finetti, Cox, etc.) ne sont pas valables ici (car si vous réalisez que votre modèle est mal spécifié, vos probabilités ne représentent pas vos véritables convictions !) Cependant, de nombreuses méthodes Bayes peuvent également être interprétées comme des "méthodes de longueur de description minimale (MDL)" - MDL est une méthode de théorie de l'information qui assimile "l'apprentissage à partir de données" à "essayer de compresser les données autant que possible". Cette interprétation de compression de données de (certaines) méthodes bayésiennes reste valable sous spécification erronée. Donc, il y a encore desinterprétation sous-jacente qui tient sous la spécification erronée - néanmoins, il y a des problèmes, comme le montrent mon article avec van Ommen (et le problème d'intervalle de confiance / ensemble crédible mentionné dans le post original).

Et puis, une dernière remarque à propos du post original: vous mentionnez la justification de la "recevabilité" de Bayes (pour revenir à la classe complète de Wald dans les années 1940-1950 de Wald). Que ce soit vraiment ou non une justification de Bayes dépend vraiment beaucoup de sa définition précise de «l'inférence bayésienne» (qui diffère d'un chercheur à l'autre…). La raison en est que ces résultats d’admissibilité permettent la possibilité d’utiliser un préalable qui dépend d’aspects du problème, tels que la taille de l’échantillon, la fonction de perte d’intérêt, etc. La plupart des «vrais» bayésiens ne voudraient pas changer leur précédent si le données qu’ils doivent traiter, ou si la fonction de perte d’intérêt change soudainement. Par exemple, avec des fonctions de perte strictement convexes, les estimateurs minimax sont également admissibles - bien qu’ils ne soient généralement pas considérés comme bayésiens! La raison en est que pour chaque taille d'échantillon fixe, ils sont équivalents à Bayes avec un préalable particulier, mais le précédent est différent pour chaque taille d'échantillon.

J'espère que c'est utile!

Peter Grünwald
la source

2

Bienvenue à CrossValidated et merci d’avoir répondu à cette question. Une remarque mineure - vous ne pouvez pas compter sur le tri des réponses dans le même ordre que vous les voyez; différentes personnes peuvent trier dans différents ordres (il y a un choix de critères de tri différents en haut de la réponse la plus élevée) et deux de ces critères changent avec le temps. C'est-à-dire que si vous vous référez à eux comme "n ° 3 et 20", les gens ne sauront pas quelles réponses vous voulez dire. [Je ne peux que trouver dix réponses également.]

Glen_b

1

Merci pour une excellente réponse Peter. Je suis confus à propos de votre commentaire selon lequel l'inférence bayésienne dans le cas mal spécifié nécessite des hypothèses très fortes. À quelles hypothèses faites-vous référence de manière explicite? Parlez-vous de la condition que le postérieur doit converger vers une distribution de Dirac sur la meilleure valeur de paramètre? ou parlez-vous des conditions plus techniques sur la probabilité qui assurent une normalité asymptotique?

Guillaume Dehaene

Ok, merci à Glen B (modérateur) - Je vais garder cela à l’esprit à partir de maintenant.

Peter Grünwald

Guillaume - J'actualise ce qui précède pour prendre en compte votre commentaire

Peter Grünwald

7

Il y a le compromis habituel biais-variance. L'inférence bayésienne en supposant le cas M-clos [1,2], a une variance plus petite [3] mais dans le cas d'une erreur de spécification du modèle, le biais augmente plus rapidement [4]. Il est également possible de faire l'inférence bayésienne en supposant le cas M-ouvert [1,2], qui présente une variance plus élevée [3], mais dans le cas d'une erreur de spécification du modèle, le biais est plus petit [4]. Des discussions sur ce compromis biais-variance entre les cas bayésiens M-fermés et M-ouverts apparaissent également dans certaines des références incluses dans les références ci-dessous, mais il est clairement nécessaire d'en savoir plus.

[1] Bernardo et Smith (1994). Théorie bayésienne. John Wiley \ & Sons.

[2] Vehtari et Ojanen (2012). Une enquête sur les méthodes prédictives bayésiennes d’évaluation, de sélection et de comparaison de modèles. Enquêtes statistiques, 6: 142-228. http://dx.doi.org/10.1214/12-SS102

[3] Juho Piironen et Aki Vehtari (2017). Comparaison des méthodes prédictives bayésiennes pour la sélection du modèle. Statistics and Computing, 27 (3): 711-735. http://dx.doi.org/10.1007/s11222-016-9649-y .

[4] Yao, Vehtari, Simpson et Andrew Gelman (2017). Utilisation de l’empilement pour la moyenne des distributions prédictives bayésiennes. préimpression arXiv arXiv: 1704.02030 arxiv.org/abs/1704.02030

Aki Vehtari
la source

7

Voici quelques autres moyens de justifier l'inférence bayésienne dans des modèles mal spécifiés.

Vous pouvez construire un intervalle de confiance sur la moyenne postérieure, en utilisant la formule sandwich (de la même manière que vous le feriez avec le MLE). Ainsi, même si les ensembles crédibles n’ont pas de couverture, vous pouvez toujours produire des intervalles de confiance valables sur des estimateurs ponctuels, si c’est ce qui vous intéresse.
Vous pouvez redimensionner la distribution postérieure pour vous assurer que les ensembles crédibles sont couverts, ce qui correspond à l'approche adoptée dans:

Müller, Ulrich K. "Risque d'inférence bayésienne dans les modèles mal spécifiés et la matrice de covariance en sandwich." Econometrica 81,5 (2013): 1805-1849.

Il y a une justification non asymptotique à la règle de Bayes: omettre les conditions techniques, si le préalable est , et le log-vraisemblance est , alors la distribution postérieure est la distribution qui minimise sur toutes les distributions . Le premier terme est comme un utilitaire attendu: vous voulez mettre une masse sur des paramètres qui produisent une probabilité élevée. Le second terme régularise: vous voulez une petite divergence de KL par rapport au précédent. Cette formule dit explicitement ce que postérieur optimise. Il est beaucoup utilisé dans le contexte de quasi-vraisemblance, où les gens remplacent le log-vraisemblance par une autre fonction d'utilité. $p(\theta)$ $\ell_n(\theta)$ $-\int \ell_n(\theta) d\nu(\theta) + \int \log\!\Big(\frac{\nu(\theta)}{p(\theta)}\Big)d\nu(\theta)$ $\nu(\theta)$

Pierrot
la source

Merci pour l'article de Muller: je pense que cela répond à beaucoup des questions que j'ai.

Guillaume Dehaene

6

supposons que le modèle réel des données diffère de pour toutes les valeurs de $p_{true}(X)$ $p(X|\theta)$ $\theta$

L’interprétation bayésienne de cette hypothèse est qu’il existe une variable aléatoire supplémentaire et une valeur dans son étendue telle que . Vos connaissances antérieures indiquent et . Alors ce qui n’est pas une distribution de probabilité appropriée. $\phi$ $\phi_0$ $\phi_0$ $\int p(X|\theta,\phi=\phi_0) \mathrm{d}\theta =0$ $p(\phi=\phi_0)\propto 1$ $p(\phi\neq\phi_0)=0$ $p(\theta|X,\phi=\phi_0)=0$

Ce cas correspond à une règle d'inférence similaire en logique où , c'est-à-dire que vous ne pouvez rien déduire d'une contradiction. Le résultat est un moyen par lequel la théorie de la probabilité bayésienne vous dit que vos connaissances antérieures ne sont pas cohérentes avec vos données. Si quelqu'un n'obtient pas ce résultat en dérivant son postérieur, cela signifie que la formulation n'a pas réussi à coder toutes les connaissances antérieures pertinentes. En ce qui concerne l'évaluation de cette situation, je passe la parole à Jaynes (2003, p.41): $A, \neg A \vdash \emptyset$ $p(\theta|X,\phi=\phi_0)=0$

... c'est un puissant outil d'analyse qui peut rechercher un ensemble de propositions et en détecter une contradiction, le cas échéant. Le principe est que les probabilités conditionnelles à des prémisses contradictoires n'existent pas (l'espace d'hypothèse est réduit à l'ensemble vide). Par conséquent, mettez notre robot au travail; c'est-à-dire écrire un programme informatique pour calculer les probabilités fonction d'un ensemble de propositions Même si l'inspection ne révèle aucune contradiction, si une contradiction est cachée dans $p(B|E)$ $E= (E_1,E_2,\dots,E_n)$ $E$ , le programme de l’ordinateur va planter. Nous avons découvert cela de manière empirique '' et, après réflexion, nous avons réalisé que ce n'était pas un motif de consternation, mais plutôt un outil de diagnostic précieux nous avertissant des cas spéciaux imprévus dans lesquels notre formulation d'un problème pouvait échouer.

En d’autres termes, si la formulation de votre problème est inexacte - si votre modèle est faux, les statistiques bayésiennes peuvent vous aider à découvrir que tel est le cas et à déterminer quel aspect du modèle est la source du problème.

Dans la pratique, il est difficile de savoir quelle connaissance est pertinente et si elle devrait être incluse dans la dérivation. Diverses techniques de vérification de modèles (les chapitres 6 et 7 de Gelman et al., 2013, en donnent un aperçu) sont ensuite utilisées pour rechercher et identifier une formulation de problème inexacte.

Gelman, A., Carlin, JB, Stern, HS, Dunson, DB, Vehtari, A. et Rubin, DB (2013). Analyse bayésienne des données, troisième édition. Chapman & Hall / CRC.

Jaynes, ET (2003). Théorie des probabilités: la logique de la science. La presse de l'Universite de Cambridge.

matus
la source

1

Votre réponse manque le point et envisage une situation plus simple. Je ne considère pas une situation dans laquelle notre modèle est tellement erroné qu'il est incompatible avec les données. Je regarde une situation dans laquelle notre modèle est faux, mais pas catastrophiquement. Par exemple, envisagez de déduire la moyenne du . Vous pouvez utiliser un modèle gaussien du pour l'inférence, même si le modèle réel est Laplace. Dans cet exemple simple, le modèle est faux mais ne "explose" pas comme ce que vous décrivez.

X_{i}

$X_i$

X_{i}

$X_i$

Guillaume Dehaene le

1

@GuillaumeDehaene Votre question était de savoir s'il existe des arguments en faveur de l'utilisation de bayes lorsque le modèle est spécifié de manière erronée. Il est clair que le modèle spécifié de manière catastrophique est erroné. De plus, vous ne pouvez pas savoir a priori si votre modèle est spécifié de manière catastrophique ou tout simplement. En fait, les bayes peuvent vous dire précisément cela, ce qui le rend utile et ma réponse l'a souligné.

Matus

Si ce n'est pas catrastrophique, la couverture ne sera pas si différente de . Pour vérifier cela, vous pouvez écrire une simulation de ce modèle normal avec des données laplaciennes. Les avantages conceptuels seraient toujours présents. Pensez-y: si vous décidez de jeter votre postérieur par la fenêtre, vous ne calculerez pas seulement le MLE, mais aussi un intervalle de confiance. Mais nous savons que l’interprétation de l’IC calculée pour UNE expérience particulière est délicate. Alors détendez-vous et profitez de la bière bayésienne. Si vous comprenez que le modèle est mal spécifié, utilisez ces informations pour en créer un meilleur.

1 - α

$1-\alpha$

Zen

@GuillaumeDehaene Oui, ma réponse n'est pas exhaustive. Je l'étends volontiers pour clarifier les cas non catastrophiques, mais vous devez préciser ce que vous avez à l'esprit: voulez-vous dire que où est un petit nombre et est petit? Ou êtes-vous en train de dire qu'il existe tel que mais encore ou autre chose? Je suis d'accord avec Zen pour dire qu'en général, les postérieurs ne seront pas beaucoup affectés dans ces cas moins graves, bien que l'on puisse construire un cas limite.

\int p (X, θ | ϕ = ϕ_{0}) d θ = k

$\int p(X,\theta|\phi=\phi_0) \mathrm{d}\theta =k$

k

$k$

p (X | ϕ = ϕ_{0})

$p(X|\phi=\phi_0)$

θ = θ_{0}

$\theta=\theta_0$

p (θ = θ_{0} | ϕ = ϕ_{0}) = 0

$p(\theta=\theta_0|\phi=\phi_0)=0$

p (X, θ = θ_{k} | ϕ = ϕ_{0}) > 0

$p(X,\theta=\theta_k|\phi=\phi_0)>0$

Matus

5

Le MLE est toujours un estimateur pour un paramètre dans un modèle que vous spécifiez et supposez être correct. Les coefficients de régression dans une MCO fréquentiste peuvent être estimés avec le MLE et toutes les propriétés que vous souhaitez y attacher (non biaisée, une variance asymptotique spécifique) supposent toujours que votre modèle linéaire très spécifique est correct.

Je vais aller un peu plus loin et dire que chaque fois que vous voulez attribuer une signification et des propriétés à un estimateur, vous devez vous en tenir à un modèle. Même si vous prenez une moyenne d'échantillon simple, vous supposez que les données sont échangeables et souvent IID.

Maintenant, les estimateurs bayésiens ont de nombreuses propriétés souhaitables qu'une MLE pourrait ne pas avoir. Par exemple, la mise en commun partielle, la régularisation et l’interprétabilité d’un postérieur qui le rendent souhaitable dans de nombreuses situations.

TrynnaDoStat
la source

Vous n'avez pas besoin de prendre l'IID pour un moyen de donner un sens. Il suffit en effet de supposer que l'on peut interchanger (mais, oui, c'est toujours une hypothèse ...)

kjetil b halvorsen

@kjetil b halvorsen Merci, j'ai édité pour plus de clarté.

TrynnaDoStat le

4

Je recommande la philosophie de Gelman & Shalizi et la pratique de la statistique bayésienne . Ils ont des réponses cohérentes, détaillées et pratiques à ces questions.

Nous pensons que la plupart de cette vue reçue de l'inférence bayésienne est fausse. Les méthodes bayésiennes ne sont pas plus inductives que tout autre mode d'inférence statistique. L'analyse bayésienne des données est beaucoup mieux comprise d'un point de vue hypothético-déductif . La meilleure pratique bayésienne est implicite dans une position qui a beaucoup de points communs avec l'approche statistique d'erreur de Mayo (1996), malgré l'orientation fréquentiste de cette dernière. En effet, des parties cruciales de l'analyse de données bayésienne, telles que la vérification de modèle, peuvent être comprises comme des "sondes d'erreur" au sens de Mayo.

Nous procédons à la fois par l’examen de cas concrets d’analyse bayésienne de données dans des recherches empiriques en sciences sociales et par des résultats théoriques sur la cohérence et la convergence de la mise à jour bayésienne. L'analyse des données socio-scientifiques est particulièrement importante pour nos objectifs, car il est généralement admis que, dans ce domaine, tous les modèles utilisés sont erronés - non seulement falsifiables, mais en réalité faux. Avec suffisamment de données - et souvent très modestes - tout analyste peut rejeter tout modèle actuellement utilisé avec le niveau de confiance souhaité . L’ajustement des modèles est néanmoins une activité précieuse, et même le noeud de l’analyse des données. Pour comprendre pourquoi il en est ainsi, nous devons examiner comment les modèles sont construits, adaptés, utilisés et vérifiés, ainsi que les effets des erreurs de spécification sur les modèles.

...

À notre avis, le récit du dernier paragraphe [de la vision bayésienne standard] est fondamentalement erroné. Le processus d'analyse des données - bayésien ou autre - ne se termine pas par le calcul d'estimations de paramètres ou de distributions a posteriori. Le modèle peut ensuite être vérifié en comparant les implications du modèle ajusté avec les preuves empiriques.. On se demande notamment si les simulations du modèle ajusté ressemblent aux données d'origine, si le modèle ajusté est cohérent avec d'autres données non utilisées dans l'ajustement du modèle et si les variables que le modèle dit sont du bruit («termes d'erreur») dans fait afficher des modèles facilement détectables. Les divergences entre le modèle et les données peuvent être utilisées pour comprendre les raisons pour lesquelles le modèle est inadéquat aux fins scientifiques, et ainsi pour motiver les développements et les modifications du modèle (section 4).

Alex Coventry
la source

2

Je pense que vous décrivez un impact de l’incertitude du modèle - vous craignez que votre inférence sur un paramètre inconnu à la lumière des données soit conditionnelle à un modèle, , ainsi qu’aux données. Et si est un modèle non plausible? S'il existe d'autres modèles, avec le même paramètre inconnu , vous pouvez alors marginaliser l'incertitude du modèle avec la moyenne bayésienne, bien que une fonctionnelle des modèles considérés et de leurs a priori. $x$ $d$ $m$

p (x | d, m),

$p (x|d, m),$

m

$m$

x

$x$

p (x | d) = \sum_{m} p (x | d, m) p (m | d)

$p (x|d) = \sum_m p (x|d, m) p(m|d)$

Si, en revanche, la définition du paramètre est intrinsèquement liée au modèle , de sorte qu'il n'y a pas d'alternative, il n'est guère surprenant que les inférences sur dépendent de . $x$ $m$ $x$ $m$

innisfree
la source

3

La moyenne des modèles ne peut pas nous sauver: il est toujours insensé de supposer que le vrai modèle entre parfaitement dans le champ de notre plus grand modèle. Avec la comparaison de modèles, nous pouvons déterminer lequel de plusieurs modèles donne le meilleur compte des données, mais cela renvoie simplement un modèle erroné qui est moins faux que les autres modèles.

Guillaume Dehaene

Cela peut vous aider à tirer des conclusions / estimations sur une quantité inconnue intégrant de manière cohérente l'incertitude du modèle. Il ne peut cependant pas inventer de nouvelles hypothèses pour vous. S'il existait un appareil statistique inventant les modèles à la lumière des données, par exemple, la science serait beaucoup plus facile.

innisfree

1

Comment définissez-vous ce qu'est un modèle "mal spécifié"? Est-ce que cela signifie que le modèle ...

fait de "mauvaises" prédictions?
n'est pas de la forme pour un "vrai modèle"? $p_{T}(x)$
manque un paramètre?
conduit à de "mauvaises" conclusions?

Si vous pensez à la façon dont un modèle donné pourrait être mal spécifié, vous allez essentiellement extraire des informations sur la manière de créer un meilleur modèle. Incluez cette information supplémentaire dans votre modèle!

Si vous réfléchissez à ce qu'est un "modèle" dans le cadre bayésien, vous pouvez toujours créer un modèle qui ne peut pas être mal spécifié. Pour ce faire, vous pouvez ajouter plus de paramètres à votre modèle actuel. En ajoutant plus de paramètres, vous rendez votre modèle plus flexible et adaptable. Les méthodes d’apprentissage automatique tirent pleinement parti de cette idée. Cela sous-tend des choses comme les "réseaux nueral" et les "arbres de régression". Vous devez cependant penser aux a priori (comme pour régulariser ML).

Par exemple, vous avez donné le "modèle linéaire" comme exemple; vous avez donc ... Où . Supposons maintenant que nous ajoutons un nouveau paramètre pour chaque observation .... Où comme auparavant. Comment cela change-t-il les choses? Vous pourriez dire "le modèle 1 est mal spécifié si le modèle 2 est vrai". Mais le modèle 2 est plus difficile à estimer car il contient beaucoup plus de paramètres. De plus, si les informations sur sont ce qui nous importe, est-ce que le modèle 1 est "incorrect"?

model 1: x_{i} = θ + σ e_{i}

$\text {model 1: }x_i =\theta + \sigma e_i$

e_{i} \sim N (0, 1)

$e_i \sim N (0,1)$

model 2: x_{i} = θ + σ \frac{e_{i}}{w_{i}}

$\text {model 2: }x_i =\theta + \sigma \frac{e_i}{w_i}$

e_{i} \sim N (0, 1)

$e_i \sim N (0,1)$

θ

$\theta$

Si vous supposez que (comme un "modèle 2a"), alors nous avons fondamentalement "erreurs de Cauchy" au lieu de "erreurs normales" et le modèle attend des valeurs aberrantes dans les données. Par conséquent, en ajoutant des paramètres à votre modèle et en choisissant un avant pour eux, j'ai créé un "modèle plus robuste". Cependant, le modèle s'attend toujours à une symétrie des termes d'erreur. En choisissant un avant différent, cela pourrait également être pris en compte ... $w_i\sim N (0,1)$

probabilislogic
la source

Et plus vous utilisez de paramètres, plus vous avez besoin de données. Si les informations dans sur sont rares, l'ajout de paramètres ne vous aidera pas. Avec les nouvelles données, le DGP est encore moins constant, vous avez donc besoin de plus de paramètres, etc. Plus votre modèle est général (plus de paramètres), moins il est probable qu'il soit "mal spécifié", mais plus vous aurez besoin d'estimer de données. En revanche, moins vous demandez à votre modèle, moins vous avez besoin de données. Mais cela signifie en réalité que le modèle est probablement "juste" si un moment postérieur complet par rapport à, par exemple, un moment conditionnel?

x

$x$

f (x)

$f(x)$

IMA

Pourquoi devrais-je être bayésien quand mon modèle est faux?

Réponses:

L'optimisation en tant que jouet modèle d'une entreprise scientifique

Que pouvons-nous apprendre de cet exemple?