Doutes sur la dérivation des équations de régression du processus gaussien dans un article

Je lis ce papier préimprimé et j'ai des difficultés à suivre leur dérivation des équations pour la régression du processus gaussien. Ils utilisent le réglage et la notation de Rasmussen & Williams . Ainsi, on suppose un additif, de moyenne nulle, stationnaire et normalement distribué avec la variance : $\sigma^2_{noise}$

y = f (x) + ϵ, ϵ \sim N (0, σ_{n o i s e}^{2})

$y=f(\mathbf{x})+\epsilon, \quad \epsilon\sim N(0,\sigma^2_{noise})$

Un GP avant avec une moyenne nulle est supposé pour , ce qui signifie que , est un vecteur gaussien de moyenne 0 et de matrice de covariance $f(\mathbf{x})$ $\forall \ d\in N$ $\mathbf{f}=\{f(\mathbf{x_1}),\dots,f(\mathbf{x_d})\}$

Σ_{d} = (\begin{matrix} k (x_{1}, x_{1}) & k (x_{1}, x_{d}) \\ ⋱ \\ k (x_{d}, x_{1}) & k (x_{d}, x_{d}) \end{matrix})

$\Sigma_d=\pmatrix{k(\mathbf{x_1},\mathbf{x_1})& & k(\mathbf{x_1},\mathbf{x_d}) \\ & \ddots & \\k(\mathbf{x_d},\mathbf{x_1})& & k(\mathbf{x_d},\mathbf{x_d}) }$

Désormais, nous supposons que les hyperparamètres sont connus. Alors l'équation (4) du papier est évidente:

p (f, f^{*}) = N (0, (\begin{matrix} K_{f, f} & K_{f^{*}, f} \\ K_{f^{*}, f} & K_{f^{*}, f^{*}} \end{matrix}))

$p(\mathbf{f},\mathbf{f^*})=N\left(0,\pmatrix { K_{\mathbf{f},\mathbf{f}} & K_{\mathbf{f^*},\mathbf{f}} \\K_{\mathbf{f^*},\mathbf{f}} & K_{\mathbf{f^*},\mathbf{f^*}}} \right)$

Voici les doutes:

Équation (5):

$p (y | f) = N (f, σ_{n o i s e}^{2} I)$ $p(\mathbf{y}|\mathbf{f})=N\left(\mathbf{f},\sigma^2_{noise}I \right)$
$E[\mathbf{f}]=0$ , mais je suppose que parce que quand je conditionne sur , puis où est un vecteur constant et seulement est aléatoire. Correct? $E[\mathbf{y}|\mathbf{f}]=\mathbf{f}\neq0$ $\mathbf{f}$ $\mathbf{y}=\mathbf{c}+\boldsymbol{\epsilon}$ $\mathbf{c}$ $\boldsymbol{\epsilon}$
Quoi qu'il en soit, c'est l'équation (6) qui est plus obscure pour moi:

$p (f, f^{*} | y) = \frac{p (f, f^{*}) p (y | f)}{p (y)}$ $p(\mathbf{f},\mathbf{f^*}|\mathbf{y})=\frac{p(\mathbf{f},\mathbf{f^*})p(\mathbf{y}|\mathbf{f})}{p(\mathbf{y})}$
Ce n'est pas la forme habituelle du théorème de Bayes. Le théorème de Bayes serait

$p (f, f^{*} | y) = \frac{p (f, f^{*}) p (y | f, f^{*})}{p (y)}$ $p(\mathbf{f},\mathbf{f^*}|\mathbf{y})=\frac{p(\mathbf{f},\mathbf{f^*})p(\mathbf{y}|\mathbf{f},\mathbf{f^*})}{p(\mathbf{y})}$
Je comprends en quelque sorte pourquoi les deux équations sont les mêmes: intuitivement, le vecteur de réponse ne dépend que du vecteur latent correspondant , conditionnant ainsi sur ou sur devrait conduire à la même distribution. Cependant, c'est une intuition, pas une preuve! Pouvez-vous m'aider à montrer pourquoi $\mathbf{y}$ $\mathbf{f}$ $\mathbf{f}$ $(\mathbf{f},\mathbf{f^*})$

$p (y | f, f^{*}) = p (y | f)$ $p(\mathbf{y}|\mathbf{f},\mathbf{f^*})=p(\mathbf{y}|\mathbf{f})$

regression bayesian gaussian-process DeltaIV
la source

Si nous fixons , alors toute incertitude dans vient du bruit. Donc, pour l'équation (5) dans l'article, nous avons que, étant donné nous avons à chaque point un bruit indépendant avec une variance et une moyenne zéro . Nous ajoutons la moyenne initiale et obtenons la réponse. $\mathbf{f}$ $\mathbf{y}$ $\mathbf{f}$ $\sigma_{noise}^2$ $0$
Une façon de prouver l'égalité suggérée est de trouver la distribution à du côté gauche et du côté droit de la qualité. Tous deux sont gaussiens, pour le côté gauche, nous connaissons déjà la réponse. Pour le côté droit, nous procédons de la même manière. Trouvons la distribution conditionnelle pour . D'après le résultat de la première partie, nous savons: En utilisant des règles de probabilité, il est facile d'intégrer partir de $p (y | f, f^{*}) = p (y | f)$ $p(\mathbf{y} | \mathbf{f}, \mathbf{f}^*) = p(\mathbf{y} | \mathbf{f})$ $(\mathbf{y}, \mathbf{y}^*)$ $p (y, y^{*} | f, f^{*}) = N ((f, f^{*}), σ_{n o i s e}^{2} I) .$ $p(\mathbf{y}, \mathbf{y}^* | \mathbf{f}, \mathbf{f}^*) = \mathcal{N}((\mathbf{f}, \mathbf{f}^*), \sigma^2_{noise} I).$ $\mathbf{y}^*$ $(\mathbf{y}, \mathbf{y}^*)$ , la matrice de covariance étant diagonale, les vecteurs et sont indépendants. En faisant cela, nous obtenons: $\mathbf{y}$ $\mathbf{y}^*$ $p (y | f, f^{*}) = N (f, σ_{n o i s e}^{2} I) = p (y | f) .$ $p(\mathbf{y} | \mathbf{f}, \mathbf{f}^*) = \mathcal{N}(\mathbf{f}, \sigma^2_{noise} I) = p(\mathbf{y} | \mathbf{f}).$

Alexey Zaytsev
la source

Doutes sur la dérivation des équations de régression du processus gaussien dans un article

Réponses: