Le processus gaussien (régression) a-t-il la propriété d'approximation universelle?

10

Une fonction continue sur [a, b], où a et b sont des nombres réels, peut-elle être approximée ou arbitrairement proche de la fonction (dans une certaine norme) par des processus gaussiens (régression)?

Michael D
la source
1
Sois plus précis!
Henry.L
1
Oui! Eh bien, en fait, cela dépend de la fonction de covariance, mais pour certains d'entre eux, c'est le cas . Dustin Tran et al. a également prouvé un théorème d'approximation universel dans le cadre bayésien pour le processus gaussien variationnel , qui est un modèle plus complexe en raison des fonctions de déformation, mais il est très étroitement lié. J'écrirai une réponse si la question est rouverte. PS note que l'approximation universelle, comme pour les réseaux de neurones, ne s'applique qu'à un ensemble compact, pas à l'ensemble de . Rp
DeltaIV
3
La déclaration «d'approximation universelle» dans cette question semble avoir peu ou rien à voir avec la déclaration dans l'article Wikipédia référencé. En effet, il n'est même pas clair comment on pourrait rapprocher une fonction d'un processus . Pourriez-vous nous expliquer ce que vous essayez de demander?
whuber
5
@whuber Bien que les détails techniques puissent être un peu lâches, je pense que la question signifie essentiellement "Pour une fonction d'entrée , y a-t-il une réalisation d'un GP particulier qui est arbitrairement proche de (dans une certaine norme)?" Ou peut-être, "Comme nous observons une infinité de points d'échantillonnage à partir d'une fonction , et effectuons une inférence de GP standard avec ces données, la fonction moyenne postérieure apprise se rapproche-t-elle de la vraie fonction (dans un certain sens)?" Ces deux propriétés sont bien sûr différentes, mais je les considérerais comme suffisamment proches pour pouvoir répondre (et donc voter pour la cinquième fois à la réouverture). ffff
Dougal
1
Vous voulez peut-être prouver la convergence au lieu de l'approximation. Sinon, la preuve est simple: vous pouvez prendre la fonction comme prioritaire pour la moyenne. Ce n'est pas beaucoup plus que , mais cela fonctionne. x=x
Karel Macek

Réponses:

16

Comme le note @Dougal, il existe deux façons différentes d'interpréter votre question. Ils sont étroitement liés, même si cela ne semble pas être le cas.

La première interprétation est: soit un sous-ensemble compact de (la compacité est fondamentale pour tout ce qui suit !!!), soit un fonction de covariance continue (ou noyau) définie sur , et notons avec l'espace normé des fonctions continues sur , équipé de la norme maximale . Pour toute fonction , peut être approchée à une tolérance prédéfinie par une fonction dans le RKHS (Reproducing Kernel Hilbert Space) associée àXRdk(x,x)X×XC(X)X||||fC(X)fϵk? Vous vous demandez peut-être ce qu'est un RKHS, ce que tout cela a à voir avec la régression du processus gaussien. Un RKHS est la fermeture de l'espace vectoriel formé par toutes les combinaisons linéaires finies possibles de toutes les fonctions possibles où . Ceci est très strictement lié à la régression du processus gaussien, car étant donné un processus gaussien antérieur sur l'espace , puis la (fermeture du) l'espace de tous les moyens postérieurs possibles pouvant être générés par la régression du processus gaussien est exactement le RKHS. En fait, tous les moyens postérieurs possibles sont de la formeK(X)fy(x)=k(x,y)yXGP(0,k(x,x))C(X)

f(x)=i=1ncik(x,xi)

c'est-à-dire que ce sont des combinaisons linéaires finies de fonctions . Ainsi, nous demandons efficacement si, compte tenu d' un processus gaussien avant sur , pour toute fonction il est toujours une fonction dans l'espace (de fermeture) de toutes les fonctions qui peuvent être générées par GPR, qui est aussi proche que souhaité de .fxi(x)=k(x,xi)GP(0,k(x,x))C(X)fC(X)ff

La réponse, pour certains noyaux particuliers (y compris le noyau exponentiel Squared classique, mais n'incluant pas le noyau polynomial), est oui . On peut prouver que pour de tels noyaux est dense en , c'est-à-dire que pour tout et pour toute tolérance , il y a un en tel que . Notez les hypothèses: est compact, est continu et est un noyau continu ayant la soi-disant propriété d'approximation universelle. Voir iciK(X)C(X)fC(X)ϵfK(X)||ff||<ϵXfk pour une preuve complète dans un contexte plus général (donc compliqué).

Ce résultat est beaucoup moins puissant qu'il n'y paraît à première vue. Même si est dans la (fermeture du) espace des moyens postérieurs qui peuvent être générés par GPR, on n'a pas prouvé qu'il est le particulier postérieure moyenne retournée par GPR, pour une formation mis en assez grand, où des Bien sûr, l'ensemble d'apprentissage consiste en des observations bruyantes de aux points . Nous n'avons même pas prouvé que la moyenne postérieure retournée par GPR converge du tout, pour ! Il s'agit en fait de la deuxième interprétation suggérée par @Dougal. La réponse à cette question dépend de la réponse à la première question: s'il n'y a pas de fonctionffx1,,xnnfdans le RKHS qui est une "bonne approximation" de , on ne peut bien sûr pas espérer que la moyenne postérieure retournée par GPR y converge. Cependant, c'est une question différente. Si vous souhaitez également avoir une réponse à cette question, veuillez poser une nouvelle question.f

DeltaIV
la source