Dans les statistiques bayésiennes, il est souvent mentionné que la distribution postérieure est intraitable et donc une inférence approximative doit être appliquée. Quels sont les facteurs qui provoquent cette intraitabilité?
la source
Dans les statistiques bayésiennes, il est souvent mentionné que la distribution postérieure est intraitable et donc une inférence approximative doit être appliquée. Quels sont les facteurs qui provoquent cette intraitabilité?
Le problème est principalement que l'analyse bayésienne implique des intégrales , souvent multidimensionnelles dans des problèmes réalistes, et ce sont ces intégrales qui sont généralement intraitables analytiquement (sauf dans quelques cas spéciaux nécessitant l'utilisation de prieurs conjugués).
En revanche, une grande partie des statistiques non bayésiennes sont basées sur le maximum de vraisemblance - trouver le maximum d'une fonction (généralement multidimensionnelle), ce qui implique la connaissance de ses dérivées , c'est-à-dire la différenciation. Même si les méthodes numériques sont utilisées dans de nombreux problèmes plus complexes, mais il est possible d'aller plus loin sans elles, et les méthodes numériques peuvent être plus simples (même si des méthodes moins simples peuvent mieux fonctionner dans la pratique).
Je dirais donc que cela se résume au fait que la différenciation est plus maniable que l'intégration.
J'ai eu l'occasion de poser cette question à David Blei en personne, et il m'a dit que l' intraitabilité dans ce contexte signifie l'une des deux choses suivantes:
L'intégrale n'a pas de solution de forme fermée. Cela peut se produire lorsque nous modélisons des données complexes du monde réel et que nous ne pouvons tout simplement pas écrire la distribution sur papier.
L'intégrale est intraitable par calcul. Il m'a recommandé de m'asseoir avec un stylo et du papier et de trouver les preuves marginales du mélange bayésien de gaussiens. Vous verrez qu'il est intraitable sur le plan du calcul, c'est-à-dire exponentiel. Il en donne un bel exemple dans un article récent (Voir 2.1 Le problème de l'inférence approximative ).
FWIW, je trouve ce choix de mots déroutant, car (1) il est surchargé de sens et (2) il est déjà largement utilisé dans CS pour se référer uniquement à l'intractabilité informatique.
En fait, il existe un éventail de possibilités:
Les gens veulent généralement dire quelque chose comme (2) lorsqu'ils parlent d'un postérieur (analytiquement) non traitable et quelque chose comme (3) lorsqu'ils parlent d'une probabilité non traitable. C'est le troisième cas où le calcul bayésien approximatif est l'une des options, tandis que dans le second cas, les méthodes MCMC sont généralement réalisables (qui, selon vous, sont dans un certain sens approximatives). Je ne sais pas trop à laquelle de ces deux citations vous faites référence.
La tractabilité est liée à la forme fermée d'une expression .
On dit que les problèmes sont traitables s'ils peuvent être résolus en termes d'expression sous forme fermée.
En mathématiques, une expression de forme fermée est une expression mathématique qui peut être évaluée en un nombre fini d'opérations. Il peut contenir des constantes, des variables, certaines opérations "bien connues" (par exemple, + - × ÷) et des fonctions (par exemple, nième racine, exposant, logarithme, fonctions trigonométriques et fonctions hyperboliques inverses), mais généralement aucune limite. L'ensemble des opérations et des fonctions admises dans une expression sous forme fermée peut varier selon l'auteur et le contexte.
Donc, l'intractabilité signifie qu'il y a une sorte de limite / infinité impliquée (comme la sommation infinie dans les intégrales) qui ne peut pas être évaluée dans un nombre fini d'opérations et donc des techniques d'approximation (comme MCMC) doivent être utilisées.
L'article de Wikipedia pointe la thèse de Cobham qui tente de formaliser cette «quantité d'opérations», et donc la tractabilité.