Méthodes MCMC - brûler des échantillons?

12

Dans les méthodes MCMC , je continue à lire sur le burn-intemps ou le nombre d'échantillons à "burn". Qu'est-ce que c'est exactement et pourquoi est-ce nécessaire?

Mise à jour:

Une fois que MCMC se stabilise, reste-t-il stable? Comment la notion de burn-intemps est-elle liée à celle de mixage du temps?

Amelio Vazquez-Reina
la source
1
L'expression « rémanence » n'implique pas de «brûler» les échantillons, mais de laisser le système se stabiliser de manière satisfaisante de son «nouvel» état à un endroit où il peut être utilisé. (Les échantillons sont jetés lors de l'installation, oui, mais la phrase n'implique pas de «brûler» dans ce sens. Elle est plus proche de «réchauffer le moteur» avant de l'emmener sur la route.) Voir cette réponse pour une discussion sur à quoi ça sert.
Glen_b -Reinstate Monica
(Plus précisément, le premier paragraphe de cette réponse)
Glen_b -Reinstate Monica
1
@Glen_b, je suppose que je le savais, mais j'aime mieux l'image mentale des échantillons douteux qui partent mieux en fumée ....
Matt Krause

Réponses:

17

Le rodage est destiné à donner à la chaîne de Markov le temps d'atteindre sa distribution d'équilibre, en particulier si elle a commencé à partir d'un point de départ moche. Pour "graver" une chaîne, il vous suffit de jeter les premiers échantillons avant de commencer à collecter des points.n

L'idée est qu'un «mauvais» point de départ peut suréchantillonner des régions qui sont en fait très peu probables sous la distribution d'équilibre avant de s'installer dans la distribution d'équilibre. Si vous jetez ces points, alors les points qui devraient être peu probables seront convenablement rares.

Cette page donne un bel exemple, mais elle souligne également que le burn-in est plus un hack / artform qu'une technique de principe. En théorie, vous pouvez simplement échantillonner pendant très longtemps ou trouver un moyen de choisir un point de départ décent à la place.

Edit: le temps de mélange fait référence au temps qu'il faut à la chaîne pour s'approcher de son état d'équilibre, mais il est souvent difficile à calculer directement. Si vous connaissiez le temps de mixage, vous écarteriez simplement autant d'échantillons, mais dans de nombreux cas, vous ne le faites pas. Ainsi, vous choisissez à la place un temps de rodage qui, espérons-le, est suffisamment grand.

En ce qui concerne la stabilité - cela dépend. Si votre chaîne a convergé, alors ... elle a convergé. Cependant, il y a aussi des situations où la chaîne semble avoir convergé, mais en fait, elle «traîne» dans une partie de l'espace d'état. Par exemple, imaginez qu'il existe plusieurs modes, mais chaque mode est mal connecté aux autres. L'échantillonneur peut mettre très longtemps à franchir cet espace et il semblera que la chaîne a convergé vers la droite jusqu'à ce qu'elle fasse ce saut.

Il existe des diagnostics pour la convergence, mais beaucoup d'entre eux ont du mal à distinguer la vraie convergence et la pseudo-convergence. Le chapitre de Charles Geyer (# 1) dans le Handbook of Markov Chain Monte Carlo est assez pessimiste à propos de tout sauf de faire fonctionner la chaîne aussi longtemps que vous le pouvez.

Matt Krause
la source
Merci. J'ai ajouté une petite mise à jour du PO dans l'espoir de clarifier davantage le concept.
Amelio Vazquez-Reina
J'en ai ajouté un peu plus; J'espère que cela pourra aider.
Matt Krause
6

L'algorithme de Metropolis-Hastings échantillonne au hasard la distribution postérieure. En règle générale, les échantillons initiaux ne sont pas complètement valides car la chaîne de Markov ne s'est pas stabilisée à la distribution stationnaire. La gravure des échantillons vous permet de jeter ces échantillons initiaux qui ne sont pas encore à l'arrêt.

Eric Peterson
la source
1
Merci - Une fois la chaîne de Markov stabilisée, reste-t-elle stable? Comment est-ce lié à la notion de temps de mélange? Est-ce la même?
Amelio Vazquez-Reina