Lorsque nous travaillons avec la chaîne de Markov Monte Carlo pour tirer l'inférence, nous avons besoin d'une chaîne qui se mélange rapidement, c'est-à-dire qui traverse rapidement le support de la distribution postérieure. Mais je ne comprends pas pourquoi nous avons besoin de cette propriété, car d'après ce que je comprends, les tirages au candiate acceptés devraient et seront concentrés dans la partie haute densité de la distribution postérieure. Si ce que je comprends est vrai, voulons-nous toujours que la chaîne se déplace à travers le support (qui comprend la partie à faible densité)?
De plus, si j'utilise MCMC pour faire de l'optimisation, dois-je quand même me soucier d'un mélange rapide et pourquoi?
Merci d'avoir partagé vos pensées!
Réponses:
L'algorithme de Monte Carlo idéal utilise des valeurs aléatoires successives indépendantes . Dans MCMC, les valeurs successives ne sont pas indépendantes, ce qui rend la méthode convergente plus lente que le Monte Carlo idéal; cependant, plus elle se mélange rapidement, plus la dépendance diminue rapidement au cours des itérations successives¹ et plus elle converge rapidement.
¹ Je veux dire ici que les valeurs successives sont rapidement "presque indépendantes" de l'état initial, ou plutôt que compte tenu de la valeur à un moment donné, les valeurs deviennent rapidement "presque indépendantes" de mesure que croît; ainsi, comme le dit qkhhly dans les commentaires, "la chaîne ne reste pas coincée dans une certaine région de l'espace étatique".X ń + k X n kXn Xń+k Xn k
Edit: Je pense que l'exemple suivant peut aider
Imaginez que vous vouliez estimer la moyenne de la distribution uniforme sur par MCMC. Vous commencez avec la séquence ordonnée ; à chaque étape, vous avez choisi éléments dans la séquence et les mélangez au hasard. À chaque étape, l'élément en position 1 est enregistré; cela converge vers la distribution uniforme. La valeur de contrôle la rapidité de mélange: lorsque , elle est lente; lorsque , les éléments successifs sont indépendants et le mélange est rapide.( 1 , … , n ) k > 2 k k = 2 k = n{1,…,n} ( 1 , … , n ) k > 2 k k = 2 k = n
Voici une fonction R pour cet algorithme MCMC:
Appliquons-le pour et traçons l'estimation successive de la moyenne long des itérations MCMC:μ = 50n = 99 μ = 50
Vous pouvez voir ici que pour (en noir), la convergence est lente; pour (en bleu), c'est plus rapide, mais toujours plus lent qu'avec (en rouge).k = 50 k = 99k = 2 k = 50 k = 99
Vous pouvez également tracer un histogramme pour la distribution de la moyenne estimée après un nombre fixe d'itérations, par exemple 100 itérations:
Vous pouvez voir qu'avec (M1), l'influence de la valeur initiale après 100 itérations ne vous donne qu'un résultat terrible. Avec cela semble correct, avec un écart-type encore plus grand qu'avec . Voici les moyens et sd:k = 50 k = 99k = 2 k = 50 k = 99
la source
En fin des deux réponses précédentes, le mélange est seulement un aspect de la convergence MCMC. Elle est en effet directement liée à la vitesse d'oubli de la valeur ou distribution initiale de la chaîne de Markov . Par exemple, la notion mathématique de -mixing est définie par la mesureα( Xn) α
De plus, l'indépendance entre les n'est pertinente que dans certains paramètres. Lorsque l'on vise l'intégration, la corrélation négative (aka simulation antithétique ) est supérieure à l'indépendance.Xn
À propos de votre commentaire spécifique
la chaîne MCMC explore la cible en proportion exacte de sa hauteur (dans son régime stationnaire) et passe donc plus de temps dans la ou les régions de densité plus élevée. Le fait que la chaîne doit traverser des régions de faible densité est pertinent lorsque la cible a plusieurs composants à haute densité séparés par des régions à faible densité. (Ceci est également appelé réglage multimodal.) Un mélange lent peut empêcher la chaîne de traverser de telles régions à faible densité. Les seules régions la chaîne ne devrait jamais visiter sont les régions à probabilité nulle sous la distribution cible.( Xn)
la source
Les présomptions qui motivent le désir d'une chaîne de mélange rapide sont que vous vous souciez du temps de calcul et que vous voulez un échantillon représentatif de la partie postérieure. Le premier dépendra de la complexité du problème: si vous avez un petit problème / simple, peu importe que votre algorithme soit efficace. Ce dernier est très important si vous êtes intéressé par l'incertitude postérieure ou si vous connaissez la moyenne postérieure avec une grande précision. Cependant, si vous ne vous souciez pas d'avoir un échantillon représentatif de la partie postérieure parce que vous utilisez simplement MCMC pour faire une optimisation approximative, cela peut ne pas être très important pour vous.
la source