Pourquoi la fonction moyenne du processus gaussien n'est-elle pas intéressante?

28

Je viens de commencer à lire sur les GPs et analogue à la distribution gaussienne régulière, elle est caractérisée par une fonction moyenne et la fonction de covariance ou le noyau. J'étais en train de parler et l'orateur a dit que la fonction moyenne est généralement assez inintéressante et que tout l'effort d'inférence est consacré à l'estimation de la fonction de covariance correcte.

Quelqu'un peut-il m'expliquer pourquoi cela devrait être le cas?

Luca
la source

Réponses:

33

Je pense que je sais où l'orateur voulait en venir. Personnellement, je ne suis pas complètement d'accord avec elle, et il y a beaucoup de gens qui ne le sont pas. Mais pour être honnête, il y en a aussi beaucoup qui le font :) Tout d'abord, notez que spécifier la fonction de covariance (noyau) implique de spécifier une distribution préalable sur les fonctions. En changeant simplement le noyau, les réalisations du processus gaussien changent radicalement, à partir des fonctions très lisses et infiniment différenciables générées par le noyau exponentiel carré

entrez la description de l'image ici

aux "spiky", fonctions non différenciables correspondant à un noyau exponentiel (ou noyau Matern avec )ν=1/2

entrez la description de l'image ici

Une autre façon de le voir est d'écrire la moyenne prédictive (la moyenne des prédictions du processus gaussien, obtenue en conditionnant le GP sur les points d'apprentissage) dans un point de test , dans le cas le plus simple d'une fonction moyenne nulle:x

y=kT(K+σ2I)1y

où est le vecteur de covariances entre le point de test et les points d'apprentissage , est la matrice de covariance des points d'apprentissage, est le terme de bruit (juste défini si votre conférence concernait des prédictions sans bruit, c'est-à-dire une interpolation du processus gaussien), et est le vecteur des observations dans l'ensemble d'apprentissage. Comme vous pouvez le voir, même si la moyenne du GP a priori est nulle, la moyenne prédictive n'est pas nulle du tout, et selon le noyau et le nombre de points d'entraînement, il peut s'agir d'un modèle très flexible, capable d'apprendre extrêmement motifs complexes.x x 1 ,, x n Kσσ=0 y =( y 1 ,, y n )kxx1,,xnKσσ=0y=(y1,,yn)

Plus généralement, c'est le noyau qui définit les propriétés de généralisation du GP. Certains noyaux ont la propriété d'approximation universelle , c'est-à-dire qu'ils sont en principe capables d'approximer n'importe quelle fonction continue sur un sous-ensemble compact, à n'importe quelle tolérance maximale prédéfinie, avec suffisamment de points d'apprentissage.

Alors, pourquoi devriez-vous vous soucier de la fonction moyenne? Tout d'abord, une simple fonction moyenne (polynomiale linéaire ou orthogonale) rend le modèle beaucoup plus interprétable, et cet avantage ne doit pas être sous-estimé pour un modèle aussi flexible (donc compliqué) que le GP. Deuxièmement, d'une manière ou d'une autre, la moyenne zéro (ou, pour ce qui vaut la peine, également la moyenne constante) GP aspire à la prédiction loin des données d'entraînement. De nombreux noyaux stationnaires (à l'exception des noyaux périodiques) sont tels que pourk(xix)0dist(xi,x). Cette convergence vers 0 peut se produire étonnamment rapidement, en particulier avec le noyau exponentiel carré, et en particulier lorsqu'une courte longueur de corrélation est nécessaire pour bien s'adapter à l'ensemble d'apprentissage. Ainsi, un GP avec une fonction moyenne nulle prédira invariablement dès que vous vous éloignerez de l'ensemble d'apprentissage.y0

Maintenant, cela pourrait avoir du sens dans votre application: après tout, c'est souvent une mauvaise idée d'utiliser un modèle piloté par les données pour effectuer des prédictions loin de l'ensemble des points de données utilisés pour former le modèle. Voir ici pour de nombreux exemples intéressants et amusants de pourquoi cela peut être une mauvaise idée. À cet égard, le GP de moyenne nulle, qui converge toujours vers 0 loin de l'ensemble d'apprentissage, est plus sûr qu'un modèle (comme par exemple un modèle polynomial orthogonal multivarié de haut degré), qui tirera avec plaisir des prédictions incroyablement grandes dès que vous vous éloignez des données d'entraînement.

Dans d'autres cas, cependant, vous souhaiterez peut-être que votre modèle ait un certain comportement asympotique, qui ne doit pas converger vers une constante. Peut-être que la considération physique vous dit que pour suffisamment grand, votre modèle doit devenir linéaire. Dans ce cas, vous voulez une fonction moyenne linéaire. En général, lorsque les propriétés globales du modèle présentent un intérêt pour votre application, vous devez faire attention au choix de la fonction moyenne. Lorsque vous vous intéressez uniquement au comportement local (proche des points d'entraînement) de votre modèle, un GP moyen nul ou constant peut être plus que suffisant.x

DeltaIV
la source
Delta, savez-vous quelle serait une bonne fonction moyenne?
Un vieil homme dans la mer.
1
@Anoldmaninthesea cela dépend beaucoup de l'application. Comme je l'ai expliqué, à moins que vous n'ayez besoin d'un modèle interprétable ou que vous soyez intéressé par des prédictions "loin" de votre ensemble d'entraînement, il serait probablement préférable de concentrer vos efforts sur l'amélioration de la fonction de covariance plutôt que sur la fonction moyenne
DeltaIV
1
Delta, eh bien dans mon cas, je dois essayer de faire des prédictions qui peuvent être loin des données observées ... J'ai posé cette question ici stats.stackexchange.com/questions/375468/…
Un vieil homme dans le mer.
6

Nous ne pouvons pas parler au nom de la personne qui donnait la conférence; l'orateur avait peut-être une idée différente en tête lorsqu'il a fait cette déclaration. Cependant, dans le cas où vous essayez de construire des prédictions postérieures à partir d'un GP, ​​une fonction moyenne constante a une solution de forme fermée qui peut être calculée exactement. Cependant, dans le cas d'une fonction moyenne plus générale, vous devez recourir à des méthodes approximatives, par exemple la simulation.

De plus, la fonction de covariance contrôle la rapidité (et le lieu) des écarts par rapport à la fonction moyenne, il est donc souvent le cas qu'une fonction de covariance plus flexible / rigide puisse être "assez bonne" pour approximer une fonction moyenne plus ornée - ce qui accorde à nouveau accès aux propriétés de commodité d'une fonction moyenne constante.

Sycorax dit de réintégrer Monica
la source
Merci pour cette explication. Oui, je ne pouvais pas poser ma question et je me demandais s'il y avait une raison de principe à cela.
Luca
6

Je vais vous donner une explication qui n'était probablement pas voulue par l'orateur. Dans certaines applications, les moyens sont toujours ennuyeux. Par exemple, supposons que nous prévoyons des ventes avec le modèle autorégressif . La moyenne à long terme est évidemment . C'est interessant?yt=c+γyt1+etE[yt]μ=c1γ

Cela dépend de votre objectif. Si vous recherchez l'évaluation du magasin, il vous indique que vous devez augmenter ou diminuer pour augmenter la valeur du magasin car la valeur est donnée par: où est le facteur d'actualisation. Donc, la moyenne est clairement intéressante.cγ

V=μr
r

Si vous êtes intéressé par la liquidité, c'est-à-dire que vous avez suffisamment de liquidités pour couvrir vos dépenses au cours des prochains mois, la moyenne est presque hors de propos. Vous regardez les prévisions de trésorerie du mois prochain: Donc, les ventes de ce mois sont un facteur maintenant.

y1=c+γy0
y0
Aksakal
la source
6

Eh bien, une très bonne raison est que la fonction moyenne peut ne pas vivre dans l'espace des fonctions que vous souhaitez modéliser. chaque point d'entrée, , peut avoir une moyenne postérieure correspondante, . Cependant, ces points moyens postérieurs sont l'attente avant de voir d'autres données. Il y a donc de nombreux cas où aucune situation où les futures données observées ne créeront cette fonction moyenne. μ ( x i )xiμ(xi)

Exemple simple: imaginez ajuster une fonction sinus avec un décalage inconnu mais une période et une amplitude connues. La moyenne antérieure est nulle pour tous les mais une ligne constante ne vit pas dans l'espace des fonctions sinus que nous avons décrites. La fonction de covariance nous donne cette information structurelle supplémentaire.x

j__
la source
0

Pour le dire simplement, la fonction moyenne domine la fonction de covariance pour les entrées «loin» des observations.
C'est un moyen d'injecter vos connaissances préalables dans la dynamique macro de votre système.

mik
la source
1
Je ne comprends pas ta réponse. Pourriez-vous clarifier?
Michael R. Chernick