Comprendre la régression du processus gaussien via une vue de fonction de base de dimension infinie

On dit souvent que la régression du processus gaussien correspond (GPR) à la régression linéaire bayésienne avec une quantité (éventuellement) infinie de fonctions de base. J'essaie actuellement de comprendre cela en détail pour avoir une intuition sur le type de modèles que je peux exprimer en utilisant GPR.

Pensez-vous que c'est une bonne approche pour essayer de comprendre le GPR?

Dans le livre Gaussian Processes for Machine learning, Rasmussen et Williams montrent que l'ensemble des processus gaussiens décrits par le noyau exponentiel carré paramétré peut être décrite de manière équivalente comme une régression bayésienne avec une croyance préalablesur les poids et une quantité infinie de fonctions de base de la forme Ainsi, le paramétrage du noyau pourrait être entièrement traduit en paramétrage des fonctions de base.

k (X, X^{'}; l) = σ_{p}^{2} \exp (- \frac{(X - X)^{2}}{2 l^{2}})

$k(x,x';l)= \sigma_p^2\exp\left(-\frac{(x-x)^2}{2l^2}\right)$

w \sim N (0, σ_{p}^{2} I)

$w \sim \mathcal{N}(0,\sigma_p^2 I)$

ϕ_{c} (X; l) = \exp (- \frac{(X - c)^{2}}{2 l^{2}})

$\phi_c(x;l)=\exp\left(-\frac{(x-c)^2}{2l^2}\right)$

Le paramétrage d'un noyau différenciable peut-il toujours être traduit en paramétrage des fonctions a priori et de base ou existe-t-il des noyaux différenciables où par exemple le nombre de fonctions de base dépend de la configuration?

Ma compréhension jusqu'à présent est que pour une fonction de noyau fixe k (x, x '), le théorème de Mercer nous dit que peut être exprimé comme où est une fonction soit dans les réels soit dans les nombres complexes. Ainsi, pour un noyau donné, le modèle de régression bayésien correspondant a préalablement et des fonctions de base . Ainsi, chaque GP peut même être formulé comme un modèle de régression linéaire bayésien avec un a priori diagonal. Cependant, si nous utilisons maintenant le théorème de mercers pour chaque configuration d'un noyau paramétré $k(x,x')$

k (X, X^{'}) = \sum_{je = 1}^{\infty} λ_{je} ϕ_{je} (X) ϕ_{je} (X^{'})

$k(x,x')=\sum_{i=1}^\infty \lambda_i\phi_i(x)\phi_i(x')$

ϕ_{i}

$\phi_i$

w \sim N (0, diag ([λ_{1}^{2}, \dots]))

$w \sim \mathcal{N}(0,\text{diag}([\lambda_1^2,\ldots]))$

ϕ_{i}

$\phi_i$

k (x, x^{'}, θ)

$k(x,x',\theta)$ qui est différentiable à chaque les valeurs propres et fonctions propres correspondantes peuvent différer pour chaque configuration.

θ

$\theta$

Ma prochaine question porte sur l'inverse du théorème des mercers.

Quels ensembles de fonctions de base conduisent à des noyaux valides?

Et l'extension

Quels ensembles de fonctions de base paramétrées conduisent à des noyaux différenciables valides?

gaussian-process kernel-trick basis-function Julian Karls
la source

Réponses:

Voici quelques remarques. Peut-être que quelqu'un d'autre peut remplir les détails.

1) Les représentations de base sont toujours une bonne idée. Il est difficile de les éviter si vous voulez réellement faire quelque chose de calcul avec votre fonction de covariance. L'extension de base peut vous donner une approximation du noyau et quelque chose avec lequel travailler. L'espoir est que vous puissiez trouver une base qui ait du sens pour le problème que vous essayez de résoudre.

$\theta$ $\theta$

En règle générale, le nombre de fonctions de base sera (en nombre) infini, de sorte que le nombre ne variera pas avec le paramètre, à moins que certaines valeurs n'entraînent la dégénérescence du noyau.

$w \sim \mathcal{N}(0,diag[\lambda_1^2, \ldots])$ $w$ $diag[\lambda_1^2, \ldots]$

$\lambda_i$ $\lambda_i$ $x$

Si les fonctions de base ne sont pas orthogonales, il sera plus difficile de montrer qu'une covariance définie à partir de celles-ci est définie positive. Évidemment, dans ce cas, vous n'avez pas affaire à une expansion propre, mais à une autre façon d'approximer la fonction d'intérêt.

Cependant, je ne pense pas que les gens partent généralement d'un tas de fonctions et essaient ensuite de construire un noyau de covariance à partir d'eux.

RE: Différenciabilité du noyau et différentiabilité des fonctions de base. Je ne connais pas vraiment la réponse à cette question, mais je voudrais faire l'observation suivante.

L'analyse fonctionnelle procède par approximation des fonctions (à partir d'un espace de dimension infinie) par des sommes finies de fonctions plus simples. Pour que cela fonctionne, tout dépend du type de convergence impliqué. En règle générale, si vous travaillez sur un ensemble compact avec de fortes propriétés de convergence (convergence uniforme ou sommabilité absolue) sur les fonctions d'intérêt, vous obtenez le type de résultat intuitif que vous recherchez: les propriétés des fonctions simples passent à la fonction limite - par exemple, si le noyau est une fonction différenciable d'un paramètre, alors les fonctions d'expansion doivent être des fonctions différenciables du même paramètre, et vice-versa. Sous des propriétés de convergence plus faibles ou des domaines non compacts, cela ne se produit pas. D'après mon expérience, il y a un contre-exemple à chaque idée «raisonnable» que l'on trouve.

Remarque: Pour éviter une confusion possible des lecteurs de cette question, notez que l'expansion gaussienne du point 1 n'est pas un exemple de l'expansion propre du point 2.

Placidia
la source