Simuler le postérieur d'un processus gaussien

Pour la première fois (excuse imprécision / erreurs) j'ai regardé les processus gaussiens , et plus précisément, j'ai regardé cette vidéo de Nando de Freitas . Les notes sont disponibles en ligne ici .

À un moment donné, il tire échantillons aléatoires d'une normale multivariée générée en construisant une matrice de covariance basée sur un noyau gaussien (exponentielle des distances au carré sur l' axe des ). Ces échantillons aléatoires forment les tracés lisses antérieurs qui deviennent moins étalés à mesure que les données deviennent disponibles. Finalement, l'objectif est de prédire en modifiant la matrice de covariance et en obtenant la distribution gaussienne conditionnelle aux points d'intérêt. $10$ $x$

Le code entier est disponible à un excellent résumé par Katherine Bailey ici , qui à son tour crédite un référentiel de code par Nando de Freitas ici . Je l'ai posté le code Python ici pour plus de commodité.

Il commence par (au lieu de ci-dessus) fonctions antérieures, et introduit un "paramètre de réglage". $3$ $10$

J'ai traduit le code en Python et [R] , y compris les tracés:

Voici le premier morceau de code dans [R] et le tracé résultant de trois courbes aléatoires générées via un noyau gaussien basé sur la proximité des valeurs dans l'ensemble de test: $x$

Le deuxième morceau de code R est plus velu et commence par simuler quatre points de données d'entraînement, ce qui finira par aider à réduire l'écart entre les courbes possibles (antérieures) autour des zones où se trouvent ces points de données d'entraînement. La simulation de la valeur pour ces points de données est une fonction . On voit le "resserrement des courbes autour des points": $y$ $\text{sin}()$

Le troisième morceau de code R concerne le tracé de la courbe des valeurs moyennes estimées (l'équivalent de la courbe de régression), correspondant à valeurs (voir calcul ci-dessous), et leurs intervalles de confiance: $50$ ${\bf\mu}$

QUESTION: Je veux demander une explication des opérations qui ont lieu lors du passage du GP précédent au postérieur.

Plus précisément, j'aimerais comprendre cette partie du code R (dans le deuxième morceau) pour obtenir les moyens et sd:

# Apply the kernel function to our training points (5 points):

K_train = kernel(Xtrain, Xtrain, param)                          #[5 x 5] matrix

Ch_train = chol(K_train + 0.00005 * diag(length(Xtrain)))        #[5 x 5] matrix

# Compute the mean at our test points:

K_trte = kernel(Xtrain, Xtest, param)                            #[5 x 50] matrix
core = solve(Ch_train) %*% K_trte                                #[5 x 50] matrix
temp = solve(Ch_train) %*% ytrain                                #[5 x 1] matrix
mu = t(core) %*% temp                                            #[50 x 1] matrix

Il y a deux noyaux (l'un de train ( ) contre train ( ), appelons-le , avec son Cholesky ( ), , colorant en orange tous les Cholesky à partir d'ici, et le second du train ( ) v test ( ), appelons-le ), et pour générer les moyennes estimées pour les points de l'ensemble de test, l'opération est: $\bf a$ $\bf a$ K_train $\bf \Sigma_{aa}$ Ch_train $\bf \color{orange}{L_{aa}}$ $\bf a$ $\bf e$ K_trte $\bf \Sigma_{ae}$ $\hat \mu$ $50$

\begin{aligned} (Eq.1) & \hat{μ} & = {[\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]}^{T} \underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 1]}{y_{t r}} \\ dimensions = [50 \times 1] \end{aligned}

$\begin{align} {\bf \hat \mu}&={\bf \left [ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right ]^T \, \underset{\color{blue}{[5 \times 5]}}{\color{orange}{L_{aa}}^{-1}} \, \underset{\color{blue}{[5 \times 1]}}{y_{tr}}}\bf\tag{Eq.1}\\ &\text{dimensions}=\color{red}{\left[50 \times 1\right]} \end{align}$

# Compute the standard deviation:

tempor = colSums(core^2)                                          #[50 x 1] matrix

# Notice that all.equal(diag(t(core) %*% core), colSums(core^2)) TRUE

s2 = diag(K_test) - tempor                                        #[50 x 1] matrix
stdv = sqrt(s2)                                                   #[50 x 1] matrix

\begin{aligned} (Eq.2) & \hat{var} & = diag (Σ_{e e}) - diag [{[\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]}^{T} [\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]] \\ = d [\begin{matrix} 1 & \dots \\ 1 \\ ⋱ \\ \dots & 1 \\ \dots & 1 \end{matrix}] - d [{[\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]}^{T} [\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]] \\ dimensions = [50 \times 1] \end{aligned}

$\begin{align} {\bf \hat{\text{var}}}&=\text{diag}\left({\bf \Sigma_{ee}}\right)-\text{diag} \left[\bf \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right]^T \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right] \right] \bf \tag{ Eq.2} \\ &=\text{d}\small{\begin{bmatrix}1&&\dots&\\&1\\&&\ddots\\&&\dots&1&\\ &&&\dots&1\end{bmatrix}}-\bf \text{d} \left[ \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right]^T \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right] \right]\\ &\text{dimensions} = \color{red}{\left[50 \times 1\right]} \end{align}$

Comment cela marche-t-il?

Le calcul des lignes de couleur (GP postérieur) dans le graphique " Trois échantillons du GP postérieur " ci-dessus est également peu clair, où le Cholesky des ensembles de test et de formation semble se réunir pour générer des valeurs normales multivariées, éventuellement ajoutées à : $\hat \mu$

Ch_post_gener = chol(K_test + 1e-6 * diag(n) - (t(core) %*% core))
m_prime = matrix(rnorm(n * 3), ncol = 3)
sam = Ch_post_gener %*% m_prime
f_post = as.vector(mu) + sam

\begin{aligned} (Eq.3) & f_{post} & = \hat{μ} + [\underset{[50 \times 50]}{L_{e e}} - [{[\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]}^{T} [\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]]] [\underset{[50 \times 3]}{N (0, 1)}] \\ dimensions = [50 \times 3] \end{aligned}

$\begin{align} f_{\text{post}}&=\bf \hat \mu +\small \left[ \underset{\color{blue}{[50 \times 50]}} {\color{orange}{L_{ee}}}\, \, \, - \left[ \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right]^T \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right] \right] \right] \left[\underset{\color{green}{[50 \times 3]}}{\mathscr N(0,1)}\right]\tag{Eq.3} \\ &\text{dimensions}= \color{red}{\left[50 \times 3\right]} \end{align}$

machine-learning simulation stochastic-processes gaussian-process Antoni Parellada
la source

Dans le dernier graphique, les intervalles de confiance ne devraient-ils pas "pincer" aux points connus?

GeoMatt22

@ GeoMatt22 Ils font en quelque sorte, ne pensez-vous pas?

Antoni Parellada du

Lorsqu'on leur donne un ensemble de test, , les valeurs attendues seront calculées en considérant une distribution conditionnelle de la valeur de la fonction pour ces nouveaux points de données, étant donné les points de données dans l'ensemble d'apprentissage, . L'idée exposée dans la vidéo est que nous aurions une distribution conjointe de et (dans la conférence indiquée par un astérisque, ) de la forme: $e$ $a$ $a$ $e$ $*$

[\begin{matrix} a \\ e \end{matrix}] \sim N ([\begin{matrix} μ_{a} \\ μ_{e} \end{matrix}], [\begin{matrix} Σ_{a a} & Σ_{a e} \\ {Σ_{a e}}^{T} & Σ_{e e} \end{matrix}])

${\bf\begin{bmatrix} a\\ \bf e\end{bmatrix}}\sim \mathscr N\left( \begin{bmatrix}\bf \mu_a\\\mu_e \end{bmatrix}\,,\begin{bmatrix}\bf \Sigma_{aa}&\bf \Sigma_{ae} \\ {\bf \Sigma_{ae}}^T & \bf \Sigma_{ee}\end{bmatrix}\right)$ .

Le conditionnel d'une distribution gaussienne multivariée a une moyenne . Maintenant, considérant que la première ligne de la matrice de blocs de covariances ci-dessus est pour , mais seulement pour , une volonté transposée être nécessaire pour rendre les matrices congruentes en: $E({\bf x}_1 | {\bf x}_2)= {\boldsymbol \mu}_1 + \Sigma_{12} \Sigma^{-1}_{22} ({\bf x}_2- {\boldsymbol \mu}_2)$ $[50 \times 50]$ $\bf \Sigma_{aa}$ $[50 \times 5]$ $\bf \Sigma_{ae}$

E (e | a) = μ_{e} + {Σ_{a e}}^{T} {Σ_{a a}}^{- 1} (y - μ_{a})

$E ({\bf e\vert a}) = {\bf \mu_e} + {\bf \Sigma_{ae}}^T {\bf \Sigma_{aa}}^{-1}\,\left ({\bf y}-{\bf \mu_{a}}\right)$ Comme le modèle est planifié avec , la formule se simplifie bien en :

μ_{a} = μ_{e} = 0

${\bf \mu_{a}} = {\bf \mu_{e}}=0$

E (e | a) = {Σ_{a e}}^{T} {Σ_{a a}}^{- 1} y_{t r}

$E ({\bf e\vert a}) = {\bf \Sigma_{ae}}^T {\bf \Sigma_{aa}}^{-1}\,{\bf y_{tr}}$

Entrez la décomposition de Cholesky (que je coderai encore en orange comme dans OP):

\begin{aligned} E (e | a) & = {Σ_{a e}}^{T} \underset{< - - α - - >}{{Σ_{a a}}^{- 1} y_{t r}} \\ = {Σ_{a e}}^{T} {(L_{a a} L_{a a}^{T})}^{- 1} y_{t r} \\ = {Σ_{a e}}^{T} L_{a a}^{- T} L_{a a}^{- 1} y_{t r} \\ (*) & = {Σ_{a e}}^{T} L_{a a}^{- T} \underset{< - m - >}{L_{a a}^{- 1} y_{t r}} \end{aligned}

$\begin{align*} E ({\bf e\vert a}) &= {\bf \Sigma_{ae}}^T\,\, \,\underset{\color{gray}{<--\alpha-->}}{{\bf \Sigma_{aa}}^{-1}\,{\bf y_{tr}}}\\ &={\bf \Sigma_{ae}}^T {\bf \color{orange}{(L_{aa}L_{aa}^T)}}^{-1}\,{\bf y_{tr}}\\ &= {\bf \Sigma_{ae}}^T {\bf \color{orange}{L_{aa}^{-T}L_{aa}^{-1}}}\,{\bf y_{tr}}\\ &= {\bf \Sigma_{ae}}^T {\bf \color{orange}{L_{aa}^{-T}}\,\,\,\,\,\, \underset {\color{gray}{ <-m->}}{\color{orange}{L_{aa}^{-1}}{\bf y_{tr}}}} \tag {*} \end{align*}$

Si , alors , et nous nous retrouvons avec un système linéaire que nous pouvons résoudre, obtenant . Voici la diapositive clé de la présentation originale: $\bf m =\color{orange}{{\bf L_{aa}}^{-1}}\,{\bf y_{tr}}$ $\color{orange}{\bf L_{aa}} \bf m= {\bf y_{tr}}$ $\bf m$

Puisque , Eq. (*) équivaut à l'équation de l'équation (1) dans l'OP: $\bf B^T A^T = (A\,B)^T$

\begin{aligned} \hat{μ} & = {[\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]}^{T} \underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 1]}{y_{t r}} \\ = (Σ_{a e}^{T} L_{a a}^{- T}) (L_{a a}^{- 1} y_{t r}) \\ dimensions = [50 \times 1] \end{aligned}

$\begin{align} {\bf \hat \mu}&={\bf \left [ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right ]^T \, \underset{\color{blue}{[5 \times 5]}}{\color{orange}{L_{aa}}^{-1}} \, \underset{\color{blue}{[5 \times 1]}}{y_{tr}}}\\ &=\bf \left( \Sigma_{ae}^T \color{orange}{ L_{aa}^{-T}} \right) \left(\color{orange}{ L_{aa}^{-1}}\, y_{tr} \right)\\ &\text{dimensions} = \color{red}{\left[50 \times 1\right]} \end{align}$

étant donné que

{[\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]}^{T} = {\underset{[50 \times 5]}{Σ_{a e}}}^{T} \underset{[5 \times 5]}{{L_{a a}}^{- 1 T}}

$\bf \left [ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right ]^T = \underset{\color{blue}{[50 \times 5]}}{\Sigma_{ae}}^T \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1T}}\, \, \,$

Un raisonnement similaire serait appliqué à la variance, en commençant par la formule de la variance conditionnelle dans une gaussienne multivariée:

v a r (x_{1} | x_{2}) = Σ_{11} - Σ_{12} Σ_{22}^{- 1} Σ_{21}

${\rm var}({\bf x}_1|{\bf x}_2)= \Sigma_{11} -\Sigma_{12}\Sigma^{-1}_{22}\Sigma_{21}$

qui dans notre cas serait:

\begin{aligned} {var}_{{\hat{μ}}_{e}} & = Σ_{e e} - Σ_{a e}^{T} Σ_{a a}^{- 1} Σ_{a e} \\ = Σ_{e e} - Σ_{a e}^{T} {[L_{a a} L_{a a}^{T}]}^{- 1} Σ_{a e} \\ = Σ_{e e} - Σ_{a e}^{T} {[L_{a a}^{- 1}]}^{T} L_{a a}^{- 1} Σ_{a e} \\ = Σ_{e e} - {[L_{a a}^{- 1} Σ_{a e}]}^{T} L_{a a}^{- 1} Σ_{a e} \end{aligned}

$\begin{align*} \bf \text{var}_{\hat\mu_{\bf e}} &= \bf \Sigma_{ee} - \Sigma_{ae}^T\Sigma_{aa}^{-1}\Sigma_{ae}\\ &= \bf \Sigma_{ee} - \Sigma_{ae}^T \left[ L_{aa}L_{aa}^T\right]^{-1}\Sigma_{ae}\\ &= \bf \Sigma_{ee} - \Sigma_{ae}^T \left[ L_{aa}^{-1}\right]^TL_{aa}^{-1}\Sigma_{ae}\\ &= \bf \Sigma_{ee} - \left[ L_{aa}^{-1} \Sigma_{ae}\right]^T L_{aa}^{-1}\Sigma_{ae} \end{align*}$

et en arrivant à l'équation (2):

\begin{aligned} {var}_{{\hat{μ}}_{e}} & = d [K_{e e} - {[\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]}^{T} [\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]] \\ dimensions = [50 \times 1] \end{aligned}

$\begin{align} \text{var}_{\hat\mu_{\bf e}}&=\text{d}\left[ \bf K_{ee} - \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right]^T \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right] \right]\\ &\text{dimensions}=\color{red}{\left[50 \times 1\right]} \end{align}$

Nous pouvons voir que l'équation (3) dans l'OP est un moyen de générer des courbes aléatoires postérieures conditionnelles aux données (ensemble d'apprentissage) et d'utiliser une forme de Cholesky pour générer trois tirages aléatoires normaux multivariés :

\begin{aligned} f_{post} & = \hat{μ} + [{var}_{{\hat{μ}}_{e}}] [rnorm \sim (0, 1)] \\ = \hat{μ} + [\underset{[50 \times 50]}{L_{e e}} - [{[\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]}^{T} [\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]]] [\underset{[50 \times 3]}{rand.norm's}] \\ dimensions = [50 \times 3] \end{aligned}

$\begin{align} f_{\text{post}} &= {\bf \hat \mu} + \left[ \text{var}_{\hat\mu_{\bf e}}\right][\text{rnorm}\sim (0,1)]\\ &=\bf \hat \mu + \left[ \underset{\color{blue}{[50 \times 50]}} {\color{orange}{L_{ee}}}\, \, \, - \left[ \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right]^T \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right] \right] \right] \left[\underset{\color{green}{[50 \times 3]}}{\text{rand.norm's}}\right]\\ &\text{dimensions}= \color{red}{\left[50 \times 3\right]} \end{align}$

Antoni Parellada
la source

Est-ce un livre ou un papier? Avez-vous un moyen robuste de calculer la moyenne et la variance conditionnelles lorsque la matrice de covariance est EXTRÊMEMENT mal conditionnée (mais sans supprimer ou fusionner des points de données presque dépendants (à proximité)) en double précision? La multi-précision dans les logiciels fonctionne, mais a un ralentissement de 2,5 à 3 ordres de grandeur par rapport à la double précision matérielle, donc même un algorithme de double précision "lent" sera bon. Je ne pense pas que Cholesky le coupe. Je ne pense pas que même QR le fasse non plus lorsque la matrice de covariance est très mal conditionnée. À l'aide de backsolves standard, semblent avoir besoin d'une précision ocutuple.

Mark L. Stone

Simuler le postérieur d'un processus gaussien

Réponses: