Pourquoi le paramétrage moyen redondant accélère-t-il Gibbs MCMC?

12

Dans le livre de Gelman & Hill (2007) (Analyse des données à l'aide de la régression et des modèles multiniveaux / hiérarchiques), les auteurs affirment que l'inclusion de paramètres moyens redondants peut aider à accélérer MCMC.

L'exemple donné est un modèle non imbriqué de "simulateur de vol" (Eq 13.9):

yiN(μ+γj[i]+δk[i],σy2)γjN(0,σγ2)δkN(0,σδ2)

Ils recommandent une reparamétrie, en ajoutant les paramètres moyens et comme suit:μ δμγμδ

γjN(μγ,σγ2)δkN(μδ,σδ2)

La seule justification offerte est que (p. 420):

Il est possible que les simulations restent bloquées dans une configuration où le vecteur entier (ou ) est loin d'être nul (même si une distribution de moyenne 0 leur est affectée). En fin de compte, les simulations convergeront vers la bonne distribution, mais nous ne voulons pas avoir à attendre.δγδ

Comment les paramètres moyens redondants aident-ils à résoudre ce problème?

Il me semble que le modèle non imbriqué est lent principalement parce que et sont négativement corrélés. (En effet, si l'un monte, l'autre doit descendre, étant donné que leur somme est "fixée" par les données). Les paramètres moyens redondants aident-ils à réduire la corrélation entre et , ou autre chose entièrement?δ γ δγδγδ

Heisenberg
la source
Recherchez-vous des informations intuitives sur ce problème particulier (par exemple, s'il s'agit de la corrélation - ou des corrélations - et - ), ou cherchez-vous des informations intuitives sur le problème général ( c'est-à-dire le concept de centrage hiérarchique)? Dans ce dernier cas, souhaiteriez-vous une intuition proche d'une preuve ou une intuition beaucoup plus lâche et montrant plus ou moins comment cela fonctionne? δ γ μ δ μγδγμδμ
Sextus Empiricus
Je voudrais un aperçu intuitif du concept de centrage hiérarchique en général (puisque le cas particulier de la question est directement une application du centrage hiérarchique). Le point clé sur lequel je veux un aperçu est: pourquoi le centrage hiérarchique fonctionne-t-il si la variance au niveau du groupe est une partie considérable de la variance totale ? L'article de Gelfand et al. le prouve mathématiquement (c'est-à-dire dériver la corrélation et trouver son comportement limitant), mais sans aucune explication intuitive.
Heisenberg

Réponses:

4

La corrélation à éviter est celle entre et et .γ j δ kμγjδk

En remplaçant et dans le modèle de calcul par d'autres paramètres sur la corrélation est réduite.δ k μγjδkμ

Voir pour une description très claire la section 25.1 'Qu'est-ce que le centrage hiérarchique?' dans le livre (disponible gratuitement) «MCMC estimation in MLwiN» de William J. Browne et al . http://www.bristol.ac.uk/cmm/software/mlwin/download/manuals.html

Sextus Empiricus
la source
La section 25.1 de l '«estimation MCMC MlwiN» décrit cette technique de «centrage hiérarchique», mais n'entre pas dans les détails plus loin que de prétendre qu'elle fonctionne. En fouillant dans ses références, j'ai trouvé que la preuve réelle de cette technique est présentée dans l'article Efficient parametrizations for normal linear mixed models , par Gelfand et al, Biometrika vol 82 issue 3.
Heisenberg
L'article ci-dessus utilise à son tour les propriétés de la distribution normale sans explication. J'ai trouvé des preuves de ces propriétés dans l'analyse bayésienne conjuguée de la distribution gaussienne par Kevin Murphy.
Heisenberg
Malheureusement, je n'ai toujours pas vu d'explication intuitive de la raison pour laquelle cette technique fonctionne.
Heisenberg
Il est tard mais je pense que ce document pourrait être ce que vous cherchez
baruuum