Les paramètres du maximum de vraisemblance s'écartent des distributions postérieures

11

J'ai une fonction de vraisemblance pour la probabilité de mes données étant donné certains paramètres du modèle , que je voudrais estimer. En supposant des a priori plats sur les paramètres, la probabilité est proportionnelle à la probabilité postérieure. J'utilise une méthode MCMC pour échantillonner cette probabilité.L(|θ)θRN

En regardant la chaîne convergente résultante, je trouve que les paramètres de vraisemblance maximale ne sont pas cohérents avec les distributions postérieures. Par exemple, la distribution de probabilité postérieure marginalisée pour l'un des paramètres peut être θ0N(μ=0,σ2=1) , tandis que la valeur de θ0 au point de vraisemblance maximale est θ0ML4 , étant essentiellement la valeur maximale de θ0 traversée par l'échantillonneur MCMC.

Ceci est un exemple illustratif, pas mes résultats réels. Les distributions réelles sont beaucoup plus compliquées, mais certains des paramètres ML ont des valeurs p tout aussi improbables dans leurs distributions postérieures respectives. Notez que certains de mes paramètres sont limités (par exemple 0θ11 ); dans les limites, les prieurs sont toujours uniformes.

Mes questions sont:

  1. Une telle déviation est-elle un problème en soi ? Évidemment, je ne m'attends pas à ce que les paramètres ML coïncident exactement avec les maxima de chacune de leurs distributions postérieures marginalisées, mais il semble intuitivement qu'ils ne devraient pas non plus être trouvés profondément dans les queues. Cet écart invalide-t-il automatiquement mes résultats?

  2. Que cela soit nécessairement problématique ou non, cela pourrait-il être symptomatique de pathologies spécifiques à un certain stade de l'analyse des données? Par exemple, est-il possible de faire une déclaration générale sur la question de savoir si une telle déviation pourrait être induite par une chaîne mal convergée, un modèle incorrect ou des limites excessivement serrées sur les paramètres?

mgc70
la source

Réponses:

15

Avec les prieurs plats, le postérieur est identique à la probabilité jusqu'à une constante. Donc

  1. Le MLE (estimé avec un optimiseur) doit être identique au MAP (valeur maximale a posteriori = mode multivarié du postérieur, estimé avec MCMC). Si vous n'obtenez pas la même valeur, vous avez un problème avec votre échantillonneur ou optimiseur.

  2. Pour les modèles complexes, il est très fréquent que les modes marginaux soient différents du MAP. Cela se produit, par exemple, si les corrélations entre les paramètres sont non linéaires. C'est parfaitement bien, mais les modes marginaux ne doivent donc pas être interprétés comme les points de densité postérieure la plus élevée, et ne doivent pas être comparés au MLE.

  3. Dans votre cas spécifique, cependant, je soupçonne que la partie postérieure se heurte à la limite antérieure. Dans ce cas, le postérieur sera fortement asymétrique, et cela n'a pas de sens de l'interpréter en termes de moyenne, sd. Il n'y a pas de problème de principe avec cette situation, mais dans la pratique, cela fait souvent allusion à une mauvaise spécification du modèle, ou à des priorités mal choisies.

Florian Hartig
la source
15

Quelques explications génériques possibles pour cette divergence perçue, en supposant bien sûr qu'il n'y a pas de problème avec le code ou la définition de vraisemblance ou l'implémentation MCMC ou le nombre d'itérations MCMC ou la convergence de l'optimisation de la probabilité (merci, Jacob Socolar ):

  1. NNθ|XNN(0,jeN)θN-22N0

  2. Alors que le MAP et le MLE sont en effet confondus sous un a priori plat, les densités marginales des différents paramètres du modèle peuvent avoir des modes (marginaux) qui sont loin des MLE correspondants (c'est-à-dire les MAP).

  3. La MAP est une position dans l'espace des paramètres où la densité postérieure est la plus élevée mais cela ne donne aucune indication de poids ou de volume postérieur pour les quartiers de la MAP. Une pointe très mince ne porte aucun poids postérieur. C'est aussi la raison pour laquelle l'exploration MCMC d'un postérieur peut rencontrer des difficultés à identifier le mode postérieur.

  4. Le fait que la plupart des paramètres soient limités peut conduire à ce que certains composants du MAP = MLE se produisent à une frontière.

Voir, par exemple, Druihlet et Marin (2007) pour des arguments sur la nature non bayésienne des estimateurs MAP. L'une est la dépendance de ces estimateurs à l'égard de la mesure dominante, l'autre étant le manque d'invariance sous reparamétrie (contrairement aux MLE).

À titre d'exemple du point 1 ci-dessus, voici un court code R

N=100
T=1e4
lik=dis=rep(0,T)
mu=rmvnorm(1,mean=rep(0,N))
xobs=rmvnorm(1,mean=rep(0,N))
lik[1]=dmvnorm(xobs,mu,log=TRUE)
dis[1]=(xobs-mu)%*%t(xobs-mu)
for (t in 2:T){
  prop=rmvnorm(1,mean=mu,sigma=diag(1/N,N))
  proike=dmvnorm(xobs,prop,log=TRUE)
  if (log(runif(1))<proike-lik[t-1]){
    mu=prop;lik[t]=proike
     }else{lik[t]=lik[t-1]}
    dis[t]=(xobs-mu)%*%t(xobs-mu)}

qui imite une séquence Metropolis-Hastings à marche aléatoire dans la dimension N = 100. La valeur de la log-vraisemblance au MAP est de -91,89, mais les probabilités visitées ne se rapprochent jamais:

> range(lik)
[1] -183.9515 -126.6924

ce qui s'explique par le fait que la séquence ne se rapproche jamais de l'observation:

> range(dis)
[1]  69.59714 184.11525
Xi'an
la source
3
J'ajouterais simplement qu'en plus de s'inquiéter du code ou de la définition de vraisemblance ou de la mise en œuvre de MCMC, l'OP pourrait également se demander si le logiciel utilisé pour obtenir l'estimation ML a été piégé dans un optimum local. stats.stackexchange.com/questions/384528/…
Jacob Socolar