Avantages des processus gaussiens

13

J'ai cette confusion liée aux avantages des processus gaussiens. Je veux le comparer à une simple régression linéaire, où nous avons défini que la fonction linéaire modélise les données.

Cependant, dans les processus gaussiens, nous définissons la distribution des fonctions signifie que nous ne définissons pas spécifiquement que la fonction doit être linéaire. Nous pouvons définir un a priori sur la fonction qui est le a priori gaussien qui définit des caractéristiques telles que le degré de fluidité de la fonction et tout.

Nous n'avons donc pas à définir explicitement ce que devrait être le modèle. Cependant, j'ai des questions. Nous avons une vraisemblance marginale et en l'utilisant, nous pouvons régler les paramètres de la fonction de covariance de l'a priori gaussien. Cela revient donc à définir le type de fonction qu'elle devrait être, n'est-ce pas?

Cela revient à la même chose définir les paramètres même si en GP ce sont des hyperparamètres. Par exemple dans cet article . Ils ont défini que la fonction moyenne du GP est quelque chose comme

m (x) = a x^{2} + b x + c i.e. a second order polynomial.

$m(x) = ax ^2 + bx + c \quad \text{i.e. a second order polynomial.}$

Donc, définitivement, le modèle / fonction est défini n'est-ce pas. Alors, quelle est la différence dans la définition de la fonction comme linéaire comme dans le LR.

Je n'ai tout simplement pas compris quel est l'avantage d'utiliser GP

gaussian-process user34790
la source

7

Rappelons quelques formules sur la régression du processus gaussien. Supposons que l' on dispose d' un échantillon . Pour cet exemple, loglik vraisemblance a la forme: où est l'exemple de matrice de covariance. Là est une fonction de covariance avec des paramètres que nous réglons en utilisant la maximisation de la probabilité de log. La prédiction (moyenne postérieure) d'un nouveau point a la forme: là $D = (X,\mathbf{y}) = \{(\mathbf{x}_i, y_i)\}_{i = 1}^N$

L = - \frac{1}{2} (\log | K | + y^{T} K^{- 1} y),

$L = -\frac12 \left( \log |K| + \mathbf{y}^T K^{-1} \mathbf{y}\right),$

K = {k (x_{i}, x_{j})}_{i, j = 1}^{N}

$K = \{k(\mathbf{x}_i, \mathbf{x}_j)\}_{i, j = 1}^N$

k (x_{i}, x_{j})

$k(\mathbf{x}_i, \mathbf{x}_j)$

x

$\mathbf{x}$

\hat{y} (x) = k K^{- 1} y,

$\hat{y}(\mathbf{x}) = \mathbf{k} K^{-1} \mathbf{y},$

k = {k (x, x_{i})}_{i = 1}^{N}

$\mathbf{k} = \{k(\mathbf{x}, \mathbf{x}_i)\}_{i = 1}^N$ est un vecteur de covariances entre le nouveau point et les points d'échantillonnage.

Notez maintenant que la régression des processus gaussiens peut modéliser des modèles linéaires exacts. Supposons que la fonction de covariance ait la forme . Dans ce cas, la prédiction a la forme: L'identité est vraie dans le cas où est non singulier, ce qui n'est pas le cas, mais ce n'est pas un problème dans le cas où nous utilisons la régularisation de la matrice de covariance. Ainsi, le côté le plus à droite est la formule exacte pour la régression linéaire, et nous pouvons faire une régression linéaire avec des processus gaussiens en utilisant la fonction de covariance appropriée. $k(\mathbf{x}_i, \mathbf{x}_j) = \mathbf{x}_i^T \mathbf{x}_j$

\hat{y} (x) = x^{T} X^{T} (X X^{T})^{- 1} y = x^{T} (X^{T} X)^{- 1} X^{T} y .

$\hat{y}(\mathbf{x}) = \mathbf{x}^T X^T (X X^T)^{-1} \mathbf{y} = \mathbf{x}^T (X^T X)^{-1} X^T \mathbf{y}.$

(X X^{T})^{- 1}

$(X X^T)^{-1}$

Considérons maintenant une régression des processus gaussiens avec une autre fonction de covariance (par exemple, fonction de covariance exponentielle au carré de la forme , il est une matrice de hyperparam'etres nous TUNE). Évidemment, dans ce cas, la moyenne postérieure n'est pas une fonction linéaire (voir image). $\exp \left( -(\mathbf{x}_i - \mathbf{x}_j)^T A^{-1} (\mathbf{x}_i - \mathbf{x}_j) \right)$ $A$

entrez la description de l'image ici .

Ainsi, l'avantage est que nous pouvons modéliser des fonctions non linéaires en utilisant une fonction de covariance appropriée (nous pouvons sélectionner une fonction de pointe, dans la plupart des cas, la fonction de covariance exponentielle au carré est un bon choix). La source de non-linéarité n'est pas la composante de tendance que vous avez mentionnée, mais la fonction de covariance.

Alexey Zaytsev
la source

3

Je dirais que ce n'est qu'un avantage de GP avec est également partagé avec d'autres méthodes du noyau. Être probabiliste et issu du cadre bayésien est un autre avantage du GP.

Seeda

2

Pour moi, le plus grand avantage des processus gaussiens est la capacité inhérente à modéliser l'incertitude du modèle. Ceci est incroyablement utile car, étant donné la valeur attendue d'une fonction et la variance correspondante, je peux définir une métrique (c'est-à-dire une fonction d'acquisition ) qui peut me dire, par exemple, quel est le point , je devrais évaluer ma fonction sous-jacente at, qui donne la valeur la plus élevée (sur attente) de . Cela constitue la base de l'optimisation bayésienne . $x$ $f$ $f(x)$

Vous connaissez probablement le compromis exploration / exploitation . Nous voulons trouver un d'une fonction (qui est souvent coûteuse à évaluer) et nous devons donc être économe sur le nous sélectionnons pour évaluer . Nous voudrons probablement regarder des endroits près des points où nous savons que la fonction a une valeur élevée (exploitation) ou des points où nous n'avons aucune idée de la valeur de la fonction (exploration). Les processus gaussiens nous fournissent les informations nécessaires pour prendre une décision concernant la prochaine évaluation: valeur moyenne et matrice de covariance (incertitude), permettant par exemple d'optimiser les fonctions coûteuses de la boîte noire. $max$ $f$ $x$ $f$ $\mu$ $\Sigma$

Tomasz Bartkowiak
la source

Avantages des processus gaussiens

Réponses: