Problème de jouet de régression du processus gaussien

J'essayais d'acquérir une certaine intuition pour la régression du processus gaussien, j'ai donc fait un simple problème de jouet 1D à essayer. J'ai pris comme entrées et comme réponses. ('Inspiré' de ) $x_i=\{1,2,3\}$ $y_i=\{1,4,9\}$ $y=x^2$

Pour la régression, j'ai utilisé une fonction de noyau exponentiel au carré standard:

k (x_{p}, x_{q}) = σ_{f}^{2} \exp (- \frac{1}{2 l^{2}} {| x_{p} - x_{q} |}^{2})

$k(x_p,x_q)=\sigma_f^2 \exp \left( - \frac{1}{2l^2} \left|x_p-x_q\right|^2 \right)$

J'ai supposé qu'il y avait du bruit avec un écart-type , de sorte que la matrice de covariance est devenue: $\sigma_n$

K_{p q} = k (x_{p}, x_{q}) + σ_{n}^{2} δ_{p q}

$K_{pq} = k(x_p,x_q) + \sigma_n^2 \delta_{pq}$

Les hyperparamètres ont été estimés en maximisant la probabilité logarithmique des données. Pour faire une prédiction à un point , j'ai trouvé la moyenne et la variance respectivement par ce qui suit $(\sigma_n,l,\sigma_f)$ $x_\star$

μ_{x_{⋆}} = k_{⋆}^{T} (K + σ_{n}^{2} I)^{- 1} y

$\mu_{x_\star} = k_\star^T (\mathbf{K}+\sigma_n^2\mathbf{I})^{-1} y$

σ_{x_{⋆}}^{2} = k (x_{⋆}, x_{⋆}) - k_{⋆}^{T} (K + σ_{n}^{2} I)^{- 1} k_{⋆}

$\sigma_{x_\star}^2 = k(x_\star,x_\star)-k_\star^T(\mathbf{K}+\sigma_n^2\mathbf{I})^{-1} k_\star$

où est le vecteur de la covariance entre et les entrées, et est un vecteur des sorties. $k_\star$ $x_\star$ $y$

Mes résultats pour sont présentés ci-dessous. La ligne bleue est la moyenne et les lignes rouges marquent les intervalles d'écart type. $1<x<3$

Les resultats

Je ne sais pas si cela est vrai cependant; mes entrées (marquées par des «X») ne se trouvent pas sur la ligne bleue. La plupart des exemples que je vois ont la moyenne coupant les entrées. Est-ce une caractéristique générale à prévoir?

regression gaussian-process Comp_Warrior
la source

Si je devais deviner, dans les exemples que vous regardiez, il n'y avait aucune erreur résiduelle. Dans ce cas, la ligne passerait par tous les points.

mec

@Guy exactement à droite.

Réponses:

La fonction moyenne passant par les points de données est généralement une indication de sur-ajustement. L'optimisation des hyperparamètres en maximisant la vraisemblance marginale aura tendance à privilégier les modèles très simples à moins qu'il y ait suffisamment de données pour justifier quelque chose de plus complexe. Comme vous n'avez que trois points de données, qui sont plus ou moins alignés avec peu de bruit, le modèle qui a été trouvé me semble assez raisonnable. Essentiellement, les données peuvent être expliquées soit comme une fonction sous-jacente linéaire avec un bruit modéré, soit comme une fonction sous-jacente modérément non linéaire avec peu de bruit. La première est la plus simple des deux hypothèses et est favorisée par le "rasoir d'Occam".

Dikran Marsupial
la source

Merci pour la contribution. Pouvez-vous m'en dire plus sur le «sur-ajustement»; est-ce une caractéristique positive / négative?

Comp_Warrior

le sur-ajustement est une chose négative, cela signifie essentiellement que le modèle mémorise la variation aléatoire des données, ce qui tend à aggraver les performances de généralisation. Idéalement, vous voulez que le modèle apprenne la forme sous-jacente des données tout en ignorant le bruit qui les contamine. La plupart des bons manuels d'apprentissage automatique couvriront cela dans un premier chapitre.

Dikran Marsupial

juste par intérêt, pourquoi le downvote?

Dikran Marsupial

Je ne vous ai pas déçu; en fait j'ai voté positivement!

Comp_Warrior

pas de problème Comp_Warrior, je ne pensais pas que c'était vous, mais quelqu'un a voté contre ma réponse et je serais heureux d'avoir des commentaires sur pourquoi. Nous sommes tous faillibles et si je me trompe dans ma réponse, je tiens à le corriger.

Dikran Marsupial

Vous utilisez les estimateurs de Krigeage avec l'ajout d'un terme de bruit (connu sous le nom d'effet pépite dans la littérature sur les processus gaussiens). Si le terme de bruit était mis à zéro, c.-à-d.

σ_{n}^{2} δ_{p q} = 0

$\sigma^2_n \delta_{pq}=0$

vos prédictions agiraient alors comme une interpolation et passeraient par les points de données échantillons.

la source

Cela me semble OK, dans le livre GP de Rasmussen, il montre définitivement des exemples où la fonction moyenne ne passe pas par chaque point de données. Notez que la ligne de régression est une estimation de la fonction sous-jacente, et nous supposons que les observations sont les valeurs de la fonction sous-jacente plus du bruit. Si la ligne de régression basée sur les trois points, cela signifierait essentiellement qu'il n'y a pas de bruit dans les valeurs observées.

$\sigma_n = 0$

$l$

$l$ $l$

Comme l'a noté Dikran Marsupial, il s'agit d'une caractéristique intégrée des processus gaussiens, la probabilité marginale pénalise les modèles trop spécifiques et préfère ceux qui peuvent expliquer de nombreux ensembles de données.

Max S.
la source