Je pense que je sais où l'orateur voulait en venir. Personnellement, je ne suis pas complètement d'accord avec elle, et il y a beaucoup de gens qui ne le sont pas. Mais pour être honnête, il y en a aussi beaucoup qui le font :) Tout d'abord, notez que spécifier la fonction de covariance (noyau) implique de spécifier une distribution préalable sur les fonctions. En changeant simplement le noyau, les réalisations du processus gaussien changent radicalement, à partir des fonctions très lisses et infiniment différenciables générées par le noyau exponentiel carré
aux "spiky", fonctions non différenciables correspondant à un noyau exponentiel (ou noyau Matern avec )ν=1/2
Une autre façon de le voir est d'écrire la moyenne prédictive (la moyenne des prédictions du processus gaussien, obtenue en conditionnant le GP sur les points d'apprentissage) dans un point de test , dans le cas le plus simple d'une fonction moyenne nulle:X∗
y∗= k∗ T( K+ σ2je)- 1y
où est le vecteur de covariances entre le point de test et les points d'apprentissage , est la matrice de covariance des points d'apprentissage, est le terme de bruit (juste défini si votre conférence concernait des prédictions sans bruit, c'est-à-dire une interpolation du processus gaussien), et est le vecteur des observations dans l'ensemble d'apprentissage. Comme vous pouvez le voir, même si la moyenne du GP a priori est nulle, la moyenne prédictive n'est pas nulle du tout, et selon le noyau et le nombre de points d'entraînement, il peut s'agir d'un modèle très flexible, capable d'apprendre extrêmement motifs complexes.x ∗ x 1 ,…, x n Kσσ=0 y =( y 1 ,…, y n )k∗X∗X1, … , XnKσσ= 0y =( y1, … , Yn)
Plus généralement, c'est le noyau qui définit les propriétés de généralisation du GP. Certains noyaux ont la propriété d'approximation universelle , c'est-à-dire qu'ils sont en principe capables d'approximer n'importe quelle fonction continue sur un sous-ensemble compact, à n'importe quelle tolérance maximale prédéfinie, avec suffisamment de points d'apprentissage.
Alors, pourquoi devriez-vous vous soucier de la fonction moyenne? Tout d'abord, une simple fonction moyenne (polynomiale linéaire ou orthogonale) rend le modèle beaucoup plus interprétable, et cet avantage ne doit pas être sous-estimé pour un modèle aussi flexible (donc compliqué) que le GP. Deuxièmement, d'une manière ou d'une autre, la moyenne zéro (ou, pour ce qui vaut la peine, également la moyenne constante) GP aspire à la prédiction loin des données d'entraînement. De nombreux noyaux stationnaires (à l'exception des noyaux périodiques) sont tels que pourk ( xje- x∗) → 0dist( xje, x∗) → ∞. Cette convergence vers 0 peut se produire étonnamment rapidement, en particulier avec le noyau exponentiel carré, et en particulier lorsqu'une courte longueur de corrélation est nécessaire pour bien s'adapter à l'ensemble d'apprentissage. Ainsi, un GP avec une fonction moyenne nulle prédira invariablement dès que vous vous éloignerez de l'ensemble d'apprentissage.y∗≈ 0
Maintenant, cela pourrait avoir du sens dans votre application: après tout, c'est souvent une mauvaise idée d'utiliser un modèle piloté par les données pour effectuer des prédictions loin de l'ensemble des points de données utilisés pour former le modèle. Voir ici pour de nombreux exemples intéressants et amusants de pourquoi cela peut être une mauvaise idée. À cet égard, le GP de moyenne nulle, qui converge toujours vers 0 loin de l'ensemble d'apprentissage, est plus sûr qu'un modèle (comme par exemple un modèle polynomial orthogonal multivarié de haut degré), qui tirera avec plaisir des prédictions incroyablement grandes dès que vous vous éloignez des données d'entraînement.
Dans d'autres cas, cependant, vous souhaiterez peut-être que votre modèle ait un certain comportement asympotique, qui ne doit pas converger vers une constante. Peut-être que la considération physique vous dit que pour suffisamment grand, votre modèle doit devenir linéaire. Dans ce cas, vous voulez une fonction moyenne linéaire. En général, lorsque les propriétés globales du modèle présentent un intérêt pour votre application, vous devez faire attention au choix de la fonction moyenne. Lorsque vous vous intéressez uniquement au comportement local (proche des points d'entraînement) de votre modèle, un GP moyen nul ou constant peut être plus que suffisant.X∗
Nous ne pouvons pas parler au nom de la personne qui donnait la conférence; l'orateur avait peut-être une idée différente en tête lorsqu'il a fait cette déclaration. Cependant, dans le cas où vous essayez de construire des prédictions postérieures à partir d'un GP, une fonction moyenne constante a une solution de forme fermée qui peut être calculée exactement. Cependant, dans le cas d'une fonction moyenne plus générale, vous devez recourir à des méthodes approximatives, par exemple la simulation.
De plus, la fonction de covariance contrôle la rapidité (et le lieu) des écarts par rapport à la fonction moyenne, il est donc souvent le cas qu'une fonction de covariance plus flexible / rigide puisse être "assez bonne" pour approximer une fonction moyenne plus ornée - ce qui accorde à nouveau accès aux propriétés de commodité d'une fonction moyenne constante.
la source
Je vais vous donner une explication qui n'était probablement pas voulue par l'orateur. Dans certaines applications, les moyens sont toujours ennuyeux. Par exemple, supposons que nous prévoyons des ventes avec le modèle autorégressif . La moyenne à long terme est évidemment . C'est interessant?yt= c + γyt - 1+ et E[ yt] ≡ μ = c1 - γ
Cela dépend de votre objectif. Si vous recherchez l'évaluation du magasin, il vous indique que vous devez augmenter ou diminuer pour augmenter la valeur du magasin car la valeur est donnée par: où est le facteur d'actualisation. Donc, la moyenne est clairement intéressante.c γ
Si vous êtes intéressé par la liquidité, c'est-à-dire que vous avez suffisamment de liquidités pour couvrir vos dépenses au cours des prochains mois, la moyenne est presque hors de propos. Vous regardez les prévisions de trésorerie du mois prochain: Donc, les ventes de ce mois sont un facteur maintenant.
la source
Eh bien, une très bonne raison est que la fonction moyenne peut ne pas vivre dans l'espace des fonctions que vous souhaitez modéliser. chaque point d'entrée, , peut avoir une moyenne postérieure correspondante, . Cependant, ces points moyens postérieurs sont l'attente avant de voir d'autres données. Il y a donc de nombreux cas où aucune situation où les futures données observées ne créeront cette fonction moyenne. μ ( x i )xi μ(xi)
Exemple simple: imaginez ajuster une fonction sinus avec un décalage inconnu mais une période et une amplitude connues. La moyenne antérieure est nulle pour tous les mais une ligne constante ne vit pas dans l'espace des fonctions sinus que nous avons décrites. La fonction de covariance nous donne cette information structurelle supplémentaire.x
la source
Pour le dire simplement, la fonction moyenne domine la fonction de covariance pour les entrées «loin» des observations.
C'est un moyen d'injecter vos connaissances préalables dans la dynamique macro de votre système.
la source