En quoi ABC et MCMC diffèrent-ils dans leurs applications?

15

À ma connaissance, le calcul bayésien approximatif (ABC) et la chaîne de Markov Monte Carlo (MCMC) ont des objectifs très similaires. Ci-dessous, je décris ma compréhension de ces méthodes et comment je perçois les différences dans leur application aux données réelles.

Calcul bayésien approximatif

ABC consiste à échantillonner un paramètre partir d'un précédent, par simulation numérique calculer une statistique qui est comparée à certains observés . Basé sur un algorithme de rejet, est soit conservé, soit rejeté. La liste des retenus a fait la distribution postérieure.x i x o b s x i x iθXjeXobsXjeXje

Chaîne Markov Monte Carlo

MCMC consiste à échantillonner une distribution préalable du paramètre . Il prend un premier échantillon , calcule puis saute (selon une règle) à une nouvelle valeur pour laquelle est à nouveau calculé. Le rapport est calculé et en fonction d'une certaine valeur seuil, le saut suivant se produira à partir de la première ou de la deuxième position. L'exploration des va de pair et à la fin, la distribution des retenues est la distribution postérieureθ 1 P ( x o b s | θ 1 ) P ( θ 1 ) θ 2 P ( x o b s | θ 2 ) P ( θ 2 ) P ( x o b s | θ 2 ) P ( θ 2 )θθ1P(Xobs|θ1)P(θ1)θ2P(Xobs|θ2)P(θ2)P(Xobs|θ2)P(θ2)P(Xobs|θ1)P(θ1)θθP(θ|X) (pour une raison qui m'est encore inconnue).

Je me rends compte que mes explications manquent de représenter la variété des méthodes qui existent sous chacun de ces termes (en particulier pour MCMC).

ABC vs MCMC (avantages et inconvénients)

ABC a l'avantage de ne pas avoir besoin de résoudre analytiquement . En tant que tel, ABC est pratique pour les modèles complexes où MCMC ne le ferait pas.P(X|θ)P(θ)

MCMC permet de faire des tests statistiques (test de rapport de vraisemblance, test G, ...) alors que je ne pense pas que ce soit faisable avec ABC.

Ai-je raison jusqu'à présent?

Question

  • En quoi ABC et MCMC diffèrent-ils dans leurs applications? Comment décide-t-on d'utiliser l'une ou l'autre méthode?
Remi.b
la source
1
"MCMC consiste à échantillonner une distribution préalable du paramètre θ." Bien que l'on puisse certainement le faire, ce n'est pas nécessaire, ni même souhaitable dans la plupart des cas. Pour de nombreuses applications MCMC, nous échantillonnons θ2 à partir d'une distribution candidate centrée autour de θ1 (par exemple, un gaussien avec un petit écart-type), puis calculons le rapport d'acceptation / rejet comme vous le mentionnez ci-dessus. Cela contraste avec ABC, où nous échantillonnons à partir de la précédente (et c'est la seule façon d'incorporer des informations antérieures dans ABC, en général).
z_dood

Réponses:

12

Quelques commentaires supplémentaires en plus de la réponse de Björn:

  1. ABC a été introduit pour la première fois par Rubin (1984) pour expliquer la nature de l'inférence bayésienne, plutôt qu'à des fins de calcul. Dans cet article, il a expliqué comment la distribution d'échantillonnage et la distribution antérieure interagissent pour produire la distribution postérieure.

  2. ABC est cependant principalement exploité pour des raisons de calcul. Les généticiens des populations ont mis au point la méthode sur des modèles à base d'arbres où la probabilité de l'échantillon observé était intraitable. Les schémas MCMC (Data Augmentation) qui étaient disponibles dans de tels paramètres étaient terriblement inefficaces, tout comme l'échantillonnage d'importance, même avec un paramètre d'une seule dimension ... Au fond, ABC est un substitut aux méthodes de Monte Carlo comme MCMC ou PMC lorsque ceux-ci ne sont pas disponibles à toutes fins pratiques. Lorsqu'ils sont disponibles, ABC apparaît comme un proxy qui peut être utilisé pour les calibrer s'il s'exécute plus rapidement.

  3. Dans une perspective plus moderne, je considère personnellement ABC comme une méthode d'inférence approximative plutôt que comme une technique de calcul. En construisant un modèle approximatif, on peut tirer une inférence sur le paramètre d'intérêt sans nécessairement s'appuyer sur un modèle précis. Bien qu'un certain degré de validation soit nécessaire dans ce cadre, il n'est pas moins valable que de faire la moyenne du modèle ou non paramétrique. En fait, ABC peut être considéré comme un type spécial de statistiques bayésiennes non paramétriques.

  4. On peut également montrer que l'ABC (bruyant) est une approche bayésienne parfaitement bien définie si l'on remplace le modèle et les données d'origine par un modèle bruyant. En tant que tel, il permet toutes les inférences bayésiennes auxquelles on peut penser. Y compris les tests. Notre contribution au débat sur l'ABC et les tests d'hypothèse est que le modèle approximatif sous-jacent à l'ABC peut se révéler mal équipé pour évaluer la pertinence d'une hypothèse compte tenu des données, mais pas nécessairement , ce qui est tout aussi bien puisque la plupart des applications de l'ABC dans la population la génétique s'intéresse au choix du modèle.

  5. Dans une perspective encore plus récente, nous pouvons voir ABC comme une version bayésienne de l' inférence indirecte où les paramètres d'un modèle statistique sont liés aux moments d'une statistique prédéterminée. Si cette statistique est suffisante (ou suffisante au sens vernaculaire) pour identifier ces paramètres, ABC peut converger vers la vraie valeur des paramètres avec le nombre d'observations.

Xi'an
la source
2
J'ai vérifié cette réponse mais je veux recommander de lire d'abord la réponse de @ Björn (+1) puis la réponse de Xi'an.
Remi.b
12

P(X|θ)θles données simulées correspondent le plus souvent (approximativement) aux données observées (avec des valeurs proposées, par exemple tirées au hasard de la précédente). Pour les cas simples, comme une seule variable aléatoire binomiale avec une taille d'échantillon pas trop grande, vous pouvez même exiger une correspondance exacte et dans ces cas, il n'y a vraiment absolument rien que vous ne puissiez pas faire avec ces échantillons postérieurs que vous ne pourriez pas faire avec échantillons MCMC standard. Pour les situations plus complexes avec des résultats continus (même pour des résultats discrets multivariés) et potentiellement multivariés nécessitant une correspondance exacte n'est plus possible.

Il existe en fait des versions MCMC d'ABC, ce qui résout le problème selon lequel si vous avez un a priori qui ne ressemble pas étroitement à l'a posteriori (par exemple parce que l'a priori est très peu informatif), l'échantillonnage en tirant de l'a priori est extrêmement inefficace, car vous le ferez très rarement obtenir une correspondance étroite entre les données observées et les données simulées.

P(X|θ)P(X|θ)P(X|θ)n'est pas disponible analytiquement. Bien sûr, il peut y avoir d'autres options possibles dans de tels cas (par exemple INLA, approximations quadratiques des probabilités, etc.) qui peuvent être plus efficaces / efficaces pour des problèmes particuliers. D'une certaine manière, toute limitation de ce que vous pouvez faire avec des échantillons postérieurs d'ABC provient uniquement de la nécessité d'une correspondance approximative entre les données réelles et simulées (si vous pouviez exiger une correspondance exacte, il n'y aurait aucun problème). Il existe plusieurs bons articles d'introduction, par exemple cet article de Marin et al. (2012) . Au moins l'un des co-auteurs (@ Xi'an) est un contributeur actif ici et j'aimerais également lui faire part de ses réflexions - je pense qu'il pourra peut-être en dire beaucoup plus sur le sujet des tests.

Björn
la source
J'espère avoir réussi à réparer le lien maintenant (cela fonctionne maintenant pour moi).
Björn
1
(+1) de très bons points!
Xi'an
1
"Lorsque P (x | θ) est analytiquement disponible, je suppose qu'il sera presque toujours préférable d'utiliser un MCMC standard." Presque, mais pas toujours. Imaginez que l'un ait une très grande taille d'échantillon (10 ^ 9) combinée à de nombreux paramètres. Il devient très coûteux de recalculer la probabilité pour chaque ensemble de paramètres. Avec ABC, il existe de nombreuses astuces pour accélérer cela. Avec MCMC, pas tellement.
z_dood
2
@z_dood: quand il y a trop d'observations pour vraiment calculer la probabilité, comme, par exemple, quand elles doivent être stockées sur différents ordinateurs, il devient discutable que la fonction de vraisemblance n'est pas disponible analytiquement.
Xi'an