Doutes sur la dérivation des équations de régression du processus gaussien dans un article

9

Je lis ce papier préimprimé et j'ai des difficultés à suivre leur dérivation des équations pour la régression du processus gaussien. Ils utilisent le réglage et la notation de Rasmussen & Williams . Ainsi, on suppose un additif, de moyenne nulle, stationnaire et normalement distribué avec la variance :σnoise2

y=f(x)+ϵ,ϵN(0,σnoise2)

Un GP avant avec une moyenne nulle est supposé pour , ce qui signifie que , est un vecteur gaussien de moyenne 0 et de matrice de covarianced N f = { f ( x 1 ) , , f ( x d ) }f(x) dNf={f(x1),,f(xd)}

Σd=(k(x1,x1)k(x1,xd)k(xd,x1)k(xd,xd))

Désormais, nous supposons que les hyperparamètres sont connus. Alors l'équation (4) du papier est évidente:

p(f,f)=N(0,(Kf,fKf,fKf,fKf,f))

Voici les doutes:

  1. Équation (5):

    p(y|f)=N(f,σnoise2I)

    E [ y | f ] = f0 fE[f]=0 , mais je suppose que parce que quand je conditionne sur , puis où est un vecteur constant et seulement est aléatoire. Correct?E[y|f]=f0fy=c+ϵcϵ

  2. Quoi qu'il en soit, c'est l'équation (6) qui est plus obscure pour moi:

    p(f,f|y)=p(f,f)p(y|f)p(y)

    Ce n'est pas la forme habituelle du théorème de Bayes. Le théorème de Bayes serait

    p(f,f|y)=p(f,f)p(y|f,f)p(y)

    Je comprends en quelque sorte pourquoi les deux équations sont les mêmes: intuitivement, le vecteur de réponse ne dépend que du vecteur latent correspondant , conditionnant ainsi sur ou sur devrait conduire à la même distribution. Cependant, c'est une intuition, pas une preuve! Pouvez-vous m'aider à montrer pourquoif f ( f , f )yff(f,f)

    p(y|f,f)=p(y|f)
DeltaIV
la source

Réponses:

1
  1. Si nous fixons , alors toute incertitude dans vient du bruit. Donc, pour l'équation (5) dans l'article, nous avons que, étant donné nous avons à chaque point un bruit indépendant avec une variance et une moyenne zéro . Nous ajoutons la moyenne initiale et obtenons la réponse.fyfσnoise20
  2. Une façon de prouver l'égalité suggérée est de trouver la distribution à du côté gauche et du côté droit de la qualité. Tous deux sont gaussiens, pour le côté gauche, nous connaissons déjà la réponse. Pour le côté droit, nous procédons de la même manière. Trouvons la distribution conditionnelle pour . D'après le résultat de la première partie, nous savons: En utilisant des règles de probabilité, il est facile d'intégrer partir de
    p(y|f,f)=p(y|f)
    (y,y)
    p(y,y|f,f)=N((f,f),σnoise2I).
    yy y p ( y | f , f ) = N ( f , σ 2 n o i s e I ) = p ( y | f ) .(y,y), la matrice de covariance étant diagonale, les vecteurs et sont indépendants. En faisant cela, nous obtenons: yy
    p(y|f,f)=N(f,σnoise2I)=p(y|f).
Alexey Zaytsev
la source