J'essayais d'acquérir une certaine intuition pour la régression du processus gaussien, j'ai donc fait un simple problème de jouet 1D à essayer. J'ai pris comme entrées et comme réponses. ('Inspiré' de )y i = { 1 , 4 , 9 } y = x 2
Pour la régression, j'ai utilisé une fonction de noyau exponentiel au carré standard:
J'ai supposé qu'il y avait du bruit avec un écart-type , de sorte que la matrice de covariance est devenue:
Les hyperparamètres ont été estimés en maximisant la probabilité logarithmique des données. Pour faire une prédiction à un point , j'ai trouvé la moyenne et la variance respectivement par ce qui suitx ⋆
σ 2 x ⋆ = k ( x ⋆ , x ⋆ ) - k T ⋆ ( K + σ 2 n I ) - 1 k ⋆
où est le vecteur de la covariance entre et les entrées, et est un vecteur des sorties.x ⋆ y
Mes résultats pour sont présentés ci-dessous. La ligne bleue est la moyenne et les lignes rouges marquent les intervalles d'écart type.
Je ne sais pas si cela est vrai cependant; mes entrées (marquées par des «X») ne se trouvent pas sur la ligne bleue. La plupart des exemples que je vois ont la moyenne coupant les entrées. Est-ce une caractéristique générale à prévoir?
la source
Réponses:
La fonction moyenne passant par les points de données est généralement une indication de sur-ajustement. L'optimisation des hyperparamètres en maximisant la vraisemblance marginale aura tendance à privilégier les modèles très simples à moins qu'il y ait suffisamment de données pour justifier quelque chose de plus complexe. Comme vous n'avez que trois points de données, qui sont plus ou moins alignés avec peu de bruit, le modèle qui a été trouvé me semble assez raisonnable. Essentiellement, les données peuvent être expliquées soit comme une fonction sous-jacente linéaire avec un bruit modéré, soit comme une fonction sous-jacente modérément non linéaire avec peu de bruit. La première est la plus simple des deux hypothèses et est favorisée par le "rasoir d'Occam".
la source
Vous utilisez les estimateurs de Krigeage avec l'ajout d'un terme de bruit (connu sous le nom d'effet pépite dans la littérature sur les processus gaussiens). Si le terme de bruit était mis à zéro, c.-à-d.
vos prédictions agiraient alors comme une interpolation et passeraient par les points de données échantillons.
la source
Cela me semble OK, dans le livre GP de Rasmussen, il montre définitivement des exemples où la fonction moyenne ne passe pas par chaque point de données. Notez que la ligne de régression est une estimation de la fonction sous-jacente, et nous supposons que les observations sont les valeurs de la fonction sous-jacente plus du bruit. Si la ligne de régression basée sur les trois points, cela signifierait essentiellement qu'il n'y a pas de bruit dans les valeurs observées.
Comme l'a noté Dikran Marsupial, il s'agit d'une caractéristique intégrée des processus gaussiens, la probabilité marginale pénalise les modèles trop spécifiques et préfère ceux qui peuvent expliquer de nombreux ensembles de données.
la source