Qu'est-ce qu'une distribution sur des fonctions?

15

Je lis un manuel Gaussian Process for Machine Learning de CE Rasmussen et CKI Williams et j'ai du mal à comprendre ce que signifie la distribution sur les fonctions . Dans le manuel, un exemple est donné, qu'il faut imaginer une fonction comme un vecteur très long (en fait, il devrait être infiniment long?). J'imagine donc qu'une distribution sur les fonctions est une distribution de probabilité dessinée "au-dessus" de ces valeurs vectorielles. Serait-ce alors une probabilité qu'une fonction prenne cette valeur particulière? Ou serait-ce une probabilité qu'une fonction prenne une valeur qui se trouve dans une plage donnée? Ou la distribution sur les fonctions est-elle une probabilité attribuée à une fonction entière?

Citations du manuel:

Chapitre 1: Introduction, page 2

Un processus gaussien est une généralisation de la distribution de probabilité gaussienne. Alors qu'une distribution de probabilité décrit des variables aléatoires qui sont des scalaires ou des vecteurs (pour les distributions multivariées), un processus stochastique régit les propriétés des fonctions. Laissant de côté la sophistication mathématique, on peut vaguement considérer une fonction comme un vecteur très long, chaque entrée du vecteur spécifiant la valeur de la fonction f (x) à une entrée particulière x. Il s'avère que bien que cette idée soit un peu naïve, elle est étonnamment proche de ce dont nous avons besoin. En effet, la question de la façon dont nous traitons le calcul de ces objets de dimension infinie a la résolution la plus agréable imaginable: si vous ne demandez que les propriétés de la fonction à un nombre fini de points,

Chapitre 2: Régression, page 7

Il existe plusieurs façons d'interpréter les modèles de régression du processus gaussien (GP). On peut penser à un processus gaussien comme définissant une distribution sur les fonctions , et l'inférence ayant lieu directement dans l'espace des fonctions, la vue espace-fonction.


De la question initiale:

J'ai fait cette image conceptuelle pour essayer de visualiser cela par moi-même. Je ne sais pas si une telle explication que je me suis faite est correcte.

entrez la description de l'image ici


Après la mise à jour:

Après la réponse de Gijs, j'ai mis à jour l'image pour qu'elle soit conceptuellement plus semblable à ceci:

entrez la description de l'image ici

camillejr
la source
3
consultez ceci pour une explication intuitive jgoertler.com/visual-exploration-gaussian-processes
bicepjai

Réponses:

11

Le concept est un peu plus abstrait qu'une distribution habituelle. Le problème est que nous sommes habitués au concept d'une distribution sur , généralement représenté par une ligne, puis le développons sur une surface , et ainsi de suite sur les distributions sur . Mais l'espace des fonctions ne peut pas être représenté comme un carré ou une ligne ou un vecteur. Ce n'est pas un crime de penser de cette façon, comme vous, mais la théorie qui fonctionne dans , ayant à voir avec la distance, les quartiers et autres (c'est ce qu'on appelle la topologie de l'espace), sont pas la même chose dans l'espace des fonctions. Donc, le dessiner comme un carré peut vous donner de mauvaises intuitions sur cet espace.RR2RnRn

Vous pouvez simplement considérer l'espace des fonctions comme une grande collection de fonctions, peut-être un sac de choses si vous voulez. La distribution ici vous donne alors les probabilités de dessiner un sous-ensemble de ces choses. La distribution dira: la probabilité que votre prochain tirage (d'une fonction) soit dans ce sous-ensemble, est par exemple de 10%. Dans le cas d'un processus gaussien sur des fonctions en deux dimensions, vous pourriez vous demander, étant donné une xcoordonnée et un intervalle dey-valeurs, il s'agit d'un petit segment de ligne verticale, quelle est la probabilité qu'une fonction (aléatoire) passe à travers cette petite ligne? Ça va être une probabilité positive. Le processus gaussien spécifie donc une distribution (de probabilité) sur un espace de fonctions. Dans cet exemple, le sous-ensemble de l'espace des fonctions est le sous-ensemble qui traverse le segment de ligne.

Une autre convention de dénomination déroutante ici est qu'une distribution est généralement spécifiée par une fonction de densité , telle que la forme de la cloche avec la distribution normale. Là, la zone sous la fonction de distribution vous indique la probabilité d'un intervalle. Cependant, cela ne fonctionne pas pour toutes les distributions, et en particulier, dans le cas des fonctions (pas comme avec les distributions normales), cela ne fonctionne pas du tout. Cela signifie que vous ne pourrez pas écrire cette distribution (comme spécifié par le processus gaussien) en tant que fonction de densité.R

Gijs
la source
1
Merci, donc pour clarifier, ce n'est pas une distribution sur les valeurs d'une fonction, mais plutôt une distribution sur une collection de fonctions, non? Une autre question que j'ai: vous avez dit que ce serait une probabilité qu'une fonction aléatoire passe par un certain intervalle, donc dans l'exemple de GPR, ce serait une fonction aléatoire mais d'une "famille" spécifique de fonctions donnée par le noyau de covariance?
camillejr
2
Oui, c'est une distribution sur une collection de fonctions. L'exemple de passage à travers un intervalle s'applique si vous avez un processus gaussien. Le noyau de covariance spécifiera en fait un processus gaussien. Donc, si vous connaissez un noyau de covariance, vous pouvez calculer la probabilité qu'une fonction aléatoire passe par un intervalle spécifique.
Gijs
14

Votre question a déjà été posée et joliment répondue sur le site Mathematics SE:

/math/2297424/extending-a-distribution-over-samples-to-a-distribution-over-functions

Il semble que vous ne soyez pas familier avec les concepts de mesures gaussiennes sur les espaces de dimension infinie , les fonctionnelles linéaires, les mesures avancées, etc. donc je vais essayer de le garder aussi simple que possible.

L2([0,1])I=[0,1]RRnL2

Cependant, il existe également une simple "astuce" basée sur le théorème d'extension de Kolmogorov , qui est essentiellement la façon dont les processus stochastiques sont introduits dans la plupart des cours de probabilité qui ne sont pas fortement théoriques. Maintenant, je vais être très ondulé et non rigoureux, et me limiter au cas des processus gaussiens. Si vous voulez une définition plus générale, vous pouvez lire la réponse ci-dessus ou rechercher le lien Wikipedia. Le théorème d'extension de Kolmogorov, appliqué à votre cas d'utilisation spécifique, énonce plus ou moins ce qui suit:

  • Sn={t1,,tn}Ixn=(x(t1),,x(tn))
  • Sn,Sm,SnSmfSn(x1,,xn)fSm(x1,,xn,xn+1,,xm)fSmSmSnfSn

Rnm+1fSm(x1,,xn,xn+1,,xm)dxn+1dxm=fSn(x1,,xn)

  • XL2Snn

Le théorème actuel est largement plus général, mais je suppose que c'est ce que vous cherchiez.

DeltaIV
la source