Quels sont les facteurs qui rendent les distributions postérieures insolubles?

28

Dans les statistiques bayésiennes, il est souvent mentionné que la distribution postérieure est intraitable et donc une inférence approximative doit être appliquée. Quels sont les facteurs qui provoquent cette intraitabilité?

Entaille
la source

Réponses:

18

Le problème est principalement que l'analyse bayésienne implique des intégrales , souvent multidimensionnelles dans des problèmes réalistes, et ce sont ces intégrales qui sont généralement intraitables analytiquement (sauf dans quelques cas spéciaux nécessitant l'utilisation de prieurs conjugués).

En revanche, une grande partie des statistiques non bayésiennes sont basées sur le maximum de vraisemblance - trouver le maximum d'une fonction (généralement multidimensionnelle), ce qui implique la connaissance de ses dérivées , c'est-à-dire la différenciation. Même si les méthodes numériques sont utilisées dans de nombreux problèmes plus complexes, mais il est possible d'aller plus loin sans elles, et les méthodes numériques peuvent être plus simples (même si des méthodes moins simples peuvent mieux fonctionner dans la pratique).

Je dirais donc que cela se résume au fait que la différenciation est plus maniable que l'intégration.

un arrêt
la source
14

J'ai eu l'occasion de poser cette question à David Blei en personne, et il m'a dit que l' intraitabilité dans ce contexte signifie l'une des deux choses suivantes:

  1. L'intégrale n'a pas de solution de forme fermée. Cela peut se produire lorsque nous modélisons des données complexes du monde réel et que nous ne pouvons tout simplement pas écrire la distribution sur papier.

  2. L'intégrale est intraitable par calcul. Il m'a recommandé de m'asseoir avec un stylo et du papier et de trouver les preuves marginales du mélange bayésien de gaussiens. Vous verrez qu'il est intraitable sur le plan du calcul, c'est-à-dire exponentiel. Il en donne un bel exemple dans un article récent (Voir 2.1 Le problème de l'inférence approximative ).

FWIW, je trouve ce choix de mots déroutant, car (1) il est surchargé de sens et (2) il est déjà largement utilisé dans CS pour se référer uniquement à l'intractabilité informatique.

gwg
la source
5

En fait, il existe un éventail de possibilités:

  1. une expression de forme fermée est disponible pour le postérieur (exemple: , avant pour : et le postérieur est une distribution ),OuiPoubelle(n,π)πBêta(une,b)p(π|Oui=y)Bêta(une+y,b+n-y)
  2. le postérieur est traitable jusqu'à la constante de normalisation (exemple: , avant pour est et )OuiPoubelle(n,π)bûcheπN(μ,σ2)p(π|Oui=y)p(y|π)p(π)
  3. le processus de génération de données est un mécanisme compliqué qui est si complexe que nous ne pouvons pas écrire une méthode similaire (ou si nous le pouvons, cela prend une éternité à évaluer), mais nous pouvons simuler à partir du processus de génération de données (par exemple, une sorte de processus pour savoir comment certaines propriétés se développer sur plusieurs générations dans une population). Pour continuer l'exemple ci-dessus, dans ce cas, nous n'aurions pas d'expression de forme fermée pour , mais pourrions simuler des réalisations de étant donné une valeur spécifique de (ne parlons même pas du cas où nous avons aucune idée de l'origine des données ...).p(y|π)Ouiπ

Les gens veulent généralement dire quelque chose comme (2) lorsqu'ils parlent d'un postérieur (analytiquement) non traitable et quelque chose comme (3) lorsqu'ils parlent d'une probabilité non traitable. C'est le troisième cas où le calcul bayésien approximatif est l'une des options, tandis que dans le second cas, les méthodes MCMC sont généralement réalisables (qui, selon vous, sont dans un certain sens approximatives). Je ne sais pas trop à laquelle de ces deux citations vous faites référence.

Björn
la source
3

La tractabilité est liée à la forme fermée d'une expression .

On dit que les problèmes sont traitables s'ils peuvent être résolus en termes d'expression sous forme fermée.

En mathématiques, une expression de forme fermée est une expression mathématique qui peut être évaluée en un nombre fini d'opérations. Il peut contenir des constantes, des variables, certaines opérations "bien connues" (par exemple, + - × ÷) et des fonctions (par exemple, nième racine, exposant, logarithme, fonctions trigonométriques et fonctions hyperboliques inverses), mais généralement aucune limite. L'ensemble des opérations et des fonctions admises dans une expression sous forme fermée peut varier selon l'auteur et le contexte.

Donc, l'intractabilité signifie qu'il y a une sorte de limite / infinité impliquée (comme la sommation infinie dans les intégrales) qui ne peut pas être évaluée dans un nombre fini d'opérations et donc des techniques d'approximation (comme MCMC) doivent être utilisées.

L'article de Wikipedia pointe la thèse de Cobham qui tente de formaliser cette «quantité d'opérations», et donc la tractabilité.

Davor Josipovic
la source