Question sur la façon d'utiliser EM pour estimer les paramètres de ce modèle

J'essaie de comprendre EM et d'essayer de déduire les paramètres de ce modèle en utilisant cette technique, mais j'ai du mal à comprendre comment commencer:

Donc, j'ai un modèle de régression linéaire pondéré comme suit où j'ai des observations et les observations correspondantes . Le modèle de la relation entre et est un modèle de régression linéaire pondéré et les hypothèses de distribution sont les suivantes: $X = (x_i, x_2....x_n)$ $Y = (y_1, y_2....y_n)$ $X$ $Y$

y_{i} \sim N (β^{T} x_{i}, \frac{σ^{2}}{w_{i}})

$y_i \sim \mathcal{N}(\beta^Tx_i, \frac{\sigma^2}{w_i})$

β \sim N (0, Σ_{β})

$\beta \sim \mathcal{N}(0, \Sigma_\beta)$

w_{i} \sim G (a, b)

$w_i \sim \mathcal{G}(a, b)$

Ici sont les paramètres de régression et le modèle permet des variances inégales en ayant les variables de réponse pour avoir des poids individuels sur la variance. Mon objectif est de trouver la relation linéaire la plus probable donnée par les paramètres . $\beta$ $\beta$

Donc, je peux maintenant écrire le log-postérieur comme suit:

\log P (Y, β, w | X) = \sum_{i = 1}^{n} (\log P (y_{i} | x_{i}, β, w_{i}) + \log P (w_{i})) + l o g P (β)

$\log P(Y, \beta, w|X) = \sum_{i=1}^n \big(\log P(y_i|x_i, \beta, w_i) + \log P(w_i)\big) + log P(\beta)$

Maintenant, j'ai essayé de comprendre EM et je ne suis pas sûr que ma compréhension soit encore complète mais comme je le comprends, pour commencer à estimer les paramètres, je commence par prendre l'espérance de la distribution log-postérieure par rapport aux paramètres latents / cachés qui dans mon cas sont et . Cette valeur attendue requise sera donc: $\log P(Y, \beta, w|X)$ $\beta$ $w$

\int \int P (β, w | X) * \log P (Y, β, w | X) d w d β

$\int\int P(\beta, w | X) * \log P(Y, \beta, w | X) dw \;d\beta$

Cependant, je n'ai aucune idée de la façon de procéder à partir d'ici pour calculer cette attente. J'apprécierais grandement toute suggestion sur la prochaine étape. Je ne cherche pas quelqu'un pour me dériver toutes les choses nécessaires, mais juste un coup de pouce dans la bonne direction sur ce que je devrais chercher à résoudre dans les prochaines étapes.

bayesian expectation-maximization Luca
la source

êtes-vous sûr que EM comme dans Expectation-Maximization s'applique à votre problème?

Xi'an

Je le pense. J'essaie de comprendre un article et ils utilisent EM pour résoudre ce problème de régression linéaire bayésienne pondérée.

Luca

Les variables latentes ne peuvent pas être et les . Si vous êtes intéressé par , les variables latentes sont probablement les . Dans ce cas, vous devez trouver la fonction log-vraisemblance complète attendue de l'étape E et l'optimiser dans dans l'étape M.

β

$\beta$

w_{i}

$w_i$

β

$\beta$

w_{i}

$w_i$

Q (β | β_{0})

$Q(\beta|\beta_0)$

β

$\beta$

Xi'an

Merci pour votre commentaire. Si je peux essayer de clarifier, l'article mentionne que nous souhaitons maximiser la probabilité de log incomplète mais nous travaillons avec la vraisemblance de données complète donnée par: , qui pour moi ressemblait à la distribution postérieure dans cette configuration. Donc, j'ai supposé que est traité comme une variable cachée dans cette configuration.

\log p (Y | X)

$\log p(Y|X)$

\log P (y, w, β | X)

$\log P(y, w, \beta|X)$

β

$\beta$

Luca

Que savez-vous déjà de l'algorithme EM? Quel livre ou article avez-vous étudié à ce sujet? Partir de zéro sur un forum comme celui-ci sonne comme une mauvaise idée.

Xi'an

Réponses:

Permettez-moi de rappeler d'abord les bases de l'algorithme EM. Lorsque l'on recherche l'estimation du maximum de vraisemblance d'une vraisemblance de la forme l'algorithme procède par maximisation itérative (M) des log-vraisemblances complètes attendues (E), qui résulte en maximisant (en ) à l'itération la fonction L'algorithme doit donc commencer par identifier la variable latente et sa distribution conditionnelle.

\int f (x, z | β) d z,

$\int f(x,z|\beta)\text{d}z,$

β

$\beta$

t

$t$

Q (β | β_{i}) = \int \log f (x, z | β) f (z | x, β_{t}) d z

$Q(\beta|\beta_i)=\int \log f(x,z|\beta) f(z|x,\beta_t)\text{d}z$

z

$z$

Dans votre cas, il semble que la variable latente soit faite des tandis que le paramètre d'intérêt est . Si vous traitez à la fois et tant que variables latentes, il ne reste aucun paramètre à optimiser. Cependant, cela signifie également que la version précédente de n'est pas utilisée. $\varpi$ $w_i$ $\beta$ $\beta$ $\varpi$ $\beta$

Si nous regardons plus précisément le cas de , sa distribution conditionnelle est donnée par qui se qualifie comme distribution. $w_i$

f (w_{i} | x_{i}, y_{i}, β) \propto \sqrt{w_{i}} \exp {- w_{i} (y_{i} - β^{T} x_{i})^{2} / 2 σ^{2}} \times w_{i}^{a - 1} \exp {- b w_{i}}

$f(w_i|x_i,y_i,\beta)\propto\sqrt{w_i}\exp\left\{-w_i(y_i-\beta^Tx_i)^2/2\sigma^2\right\}\times w_i^{a-1}\exp\{-bw_i\}$

G (a + 1 / 2, b + (y_{i} - β^{T} x_{i})^{2} / 2 σ^{2})

$\mathcal{G}\left(a+1/2,b+(y_i-\beta^Tx_i)^2/2\sigma^2\right)$

La probabilité de log terminée étant la partie qui dépend on simplifie comme et la fonction est proportionnelle à optimisation de cette fonction dans équivaut à une régression linéaire pondérée, avec des poids

\sum_{i} \frac{1}{2} {\log (w_{i}) - w_{i} (y_{i} - β^{T} x_{i})^{2} / σ^{2}}

$\sum_i \frac{1}{2}\left\{\log(w_i)- w_i(y_i-\beta^Tx_i)^2/\sigma^2\right\}$

β

$\beta$

- \sum_{i} w_{i} (y_{i} - β^{T} x_{i})^{2} / 2 σ^{2}

$-\sum_iw_i(y_i-\beta^Tx_i)^2/2\sigma^2$

- Q (β | β_{t})

$-Q(\beta|\beta_t)$

\begin{aligned} E [\sum_{i} w_{i} (y_{i} - β^{T} x_{i})^{2} | X, Y, β_{t}] & = \sum_{i} E [w_{i} | X, Y, β_{t}] (y_{i} - β^{T} x_{i})^{2} \\ = \sum_{i} \frac{a + 1 / 2}{b + (y_{i} - β_{t}^{T} x_{i})^{2} / 2 σ^{2}} (y_{i} - β^{T} x_{i})^{2} \end{aligned}

$\begin{align*}\mathbb{E}\left[\sum_iw_i(y_i-\beta^Tx_i)^2\Big|X,Y,\beta_t\right]&=\sum_i\mathbb{E}[w_i|X,Y,\beta_t](y_i-\beta^Tx_i)^2\\&=\sum_i\frac{a+1/2}{b+(y_i-\beta_t^Tx_i)^2/2\sigma^2}(y_i-\beta^Tx_i)^2\end{align*}$

β

$\beta$

\frac{a + 1 / 2}{b + (y_{i} - β_{t}^{T} x_{i})^{2} / 2 σ^{2}}

$\frac{a+1/2}{b+(y_i-\beta_t^Tx_i)^2/2\sigma^2}$

Xi'an
la source

Merci pour cela et je reviendrai là-dessus avec rigueur. Cependant, ce travail que je regarde traite également la comme une variable cachée. Ils mentionnent qu'ils prennent l'espérance avec la forme approximative de postérieur approximant comme . Donc, ce morceau m'a vraiment confus ...

β

$\beta$

Q (β, w)

$Q(\beta, w)$

Q (w) Q (β)

$Q(w)Q(\beta)$

Luca

Si vous traitez les deux et comme des variables latentes, il n'y a plus de paramètre ...

β

$\beta$

w

$w$

Xi'an

Peut-être que ce qu'ils ont dôme est l'estimation MAP au lieu de l'estimation ML. Si j'essaye de reformuler ceci comme l'estimation de MAP, je suppose que la distribution antérieure de entrerait en jeu?

β

$\beta$

Luca

Une chose très rapide ... Je ne sais pas si vous voyez cela mais quand vous avez l'équation pour la log-vraisemblance complète, le premier terme n'est-il pas ? De plus, je suppose que le terme que vous montrez est le log-vraisemblance proportionnel à une constante. Je suis toujours confus avec ça quand les choses sont enroulées en constantes.

l o g (\sqrt{w_{i}})

$log(\sqrt{w_i})$

Luca

correction faite: je mets devant toute l'expression.

1 / 2

$1/2$

Xi'an