Interprétation probabiliste des cannelures de lissage de plaques minces

8

TLDR: Les splines de régression en plaques minces ont-elles une interprétation probabiliste / bayésienne?

Étant donné les paires entrée-sortie , ; Je veux estimer une fonction comme suit où est une fonction du noyau et est un vecteur caractéristique de taille . Les coefficients et peuvent être trouvés en résolvant où les lignes de \ Phi sont données par(xi,yi)i=1,...,nf()

f(x)u(x)=ϕ(xi)Tβ+i=1nαik(x,xi),
k(,)ϕ(xi)m<nαiβi
minαRn,βRm1nYΦβKαRn2+λαTKα,
Φϕ(xi)T et, avec un certain abus de notation, la i,j jième entrée de la matrice du noyau K est k(xi,xj) . Cela donne
α=λ1(I+λ1K)1(YΦβ)
β={ΦT(I+λ1K)1Φ}1ΦT(I+λ1K)1Y.
En supposant que k(,) est une fonction de noyau définie positive, cette solution peut être considérée comme le meilleur prédicteur linéaire sans biais pour le modèle bayésien suivant:
y | (β,h())  N(ϕ(x)β+h(x),σ2),
h()  GP(0,τk(,)),
β1,
σ2/τ=λ et GP désigne un processus gaussien. Voir par exemple https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2665800/

Ma question est la suivante. Supposons que je laisse k(x,x):=|xx|2ln(|xx|) et ϕ(x)T=(1,x) , c'est-à-dire spline en plaque mince régression. Maintenant, k(,) n'est pas une fonction semi-définie positive et l'interprétation ci-dessus ne fonctionne pas. Le modèle ci-dessus et sa solution ont-ils toujours une interprétation probabiliste comme dans le cas où le k(,) est semi-défini positif?

MthQ
la source
Vous semblez supposer que le est dans un espace dimensionnel avec ou au moins que l'entier est pair. xdd=2d
Yves
Ok, alors quelles sont les implications?
MthQ
2
Ce n'était qu'une remarque secondaire car dans la question, on peut penser que sont des scalaires. Mais dans ce cas, le noyau de Duchon a la forme avec entier, et pour la spline de lissage habituelle. Je pense que l'interprétation probabiliste reste presque inchangée mais le GP n'est pas stationnaire: c'est une fonction aléatoire intrinsèque . Pour la spline de lissage habituelle, cela s'avère être un processus de Wiener intégré. xi|xx|2m1mm=2
Yves
1
@Yves qui semble intéressant. Vous voudrez peut-être étendre votre commentaire à une réponse, en expliquant un peu plus ce qu'est une fonction aléatoire intrinsèque et en ajoutant l'exemple classique de la spline de lissage. Si vous vous inquiétez de prouver que le noyau TPS donne lieu à un GP non stationnaire, une simulation pourrait être un compromis utile, surtout si vous ajoutez une estimation non paramétrique de la variance de la distribution prédictive postérieure.
DeltaIV
@DeltaIV. Je vous remercie. Je vais essayer de le faire, pas encore une tâche facile. Je suis sûr que cela se produit lorsque les fonctions sont des polynômes appropriés liés au noyau, mais cela pourrait ne plus être vrai avec arbitraire comme dans le contexte GP plus classique. ϕjϕj
Yves

Réponses:

5

Laissez le modèle de la question s'écrire où est un GP non observé avec index et est un terme de bruit normal avec variance . Le GP est généralement supposé être centré, stationnaire et non déterministe. Notez que le terme peut être considéré comme un GP (déterministe) avec noyau où

(1)Yi=ϕ(xi)β+h(xi)+εi
h(x)xRdεiσ2ϕ(x)βϕ(x)Bϕ(x)Best une matrice de covariance à `` valeur infinie ''. En effet, en prenant avec nous obtenons les équations de krigeage de la question. Ceci est souvent nommé avant diffus pour . Un postérieur approprié pour ne résulte que lorsque la matrice a un rang complet. Ainsi, le modèle écrit ainsi que où est un GP . La même interprétation Bayes peut être utilisée avec des restrictions lorsque n'est plus un GP mais plutôt unB:=ρIρββΦ
(2)Yi=ζ(xi)+εi
ζ(x)ζ(x)Fonction aléatoire intrinsèque (IRF). La dérivation peut être trouvée dans le livre de G. Wahba. Des présentations lisibles du concept de l'IRF sont par exemple dans le livre de N. Cressie et l'article de Mardia et al cité ci-dessous. Les IRF sont similaires aux processus intégrés bien connus dans le contexte de temps discret (comme ARIMA): un IRF est transformé en un GP classique par une sorte d'opération de différenciation.

Voici deux exemples d'IRF pour . Considérons tout d'abord un processus de Wiener avec sa condition initiale remplacée par une condition initiale diffuse : est normal avec une variance infinie. Une fois qu'une valeur est connue, l'IRF peut être prédit comme l'est le GP de Wiener. Deuxièmement, considérons un processus de Wiener intégré donné par l'équation où est un processus de Wiener. Pour obtenir un GP, ​​nous avons maintenant besoin de deux paramètres scalaires: deux valeurs et pourd=1ζ(x)ζ(0)=0ζ(0)ζ(x)

d2ζ(x)/dx2=dW(x)/dx
W(x)ζ(x)ζ(x)xxou les valeurs et à un certain choisi . On peut considérer que les deux paramètres supplémentaires sont conjointement gaussiens avec une matrice de covariance infinie . Dans les deux exemples, dès qu'un ensemble fini approprié d'observations est disponible, l'IRF est presque géré comme un GP. De plus, nous avons utilisé un opérateur différentiel: et respectivement. L'espace nul est un espace linéaire de fonctions tel que . Il contient la fonction constante ζ(x)dζ(x)/dxx2×2L:=d/dxL:=d2/dx2Fϕ(x)Lϕ=0ϕ1(x)=1dans le premier cas et les fonctions et dans le second cas. Notez que dans le premier exemple est GP pour tout fixe dans le premier exemple et de même est un GP dans le second cas.ϕ1(x)=1ϕ2(x)=xζ(x)ζ(x+δ)δζ(xδ)2ζ(x)+ζ(x+δ)

Pour une dimension générale , considérons un espace linéaire de fonctions définies sur . Nous appelons un incrément relatif à une collection finie de emplacements et poids réels tels que Considérez comme étant l'espace nul de nos exemples. Pour le premier exemple, nous pouvons prendre par exemple avec et arbitraire etdFRdFsxiRdsνi

i=1sνiϕ(xi)=0 for all ϕF.
Fs=2x1x2[1,1] . Pour le deuxième exemple, nous pouvons prendre s également espacés et . La définition d'un IRF implique un espace de fonctions et une fonction qui est conditionnellement positive par rapport à , ce qui signifie que est dès que est un incrément écrit . Depuis ets=3xiν=[1,2,1]Fg(x,x)F
i=1sj=1sνiνjg(xi,xj)0
[νi,xi]i=1sFFg(x,x) on peut faire un noyau de covariance donc un GP comme dans Mardia et al. On peut partir d'un opérateur différentiel linéaire et utiliser l'espace nul comme ; l'IRF aura alors une connexion avec l'équation un bruit gaussien.LFLζ=

Le calcul de la prédiction de l'IRF est presque le même que dans la question, avec remplacé par , mais avec le formant maintenant une base de . La contrainte supplémentaire doit être ajoutée dans le problème d'optimisation, ce qui permettra à . Nous pouvons toujours ajouter plus de fonctions de base qui ne sont pas dans si nécessaire; cela aura pour effet d'ajouter un GP déterministe, par exemple à l'IRF k(x,x)g(x,x)ϕi(x)FΦα=0αKα0Fψ(x)γζ(x) dans (2).

La spline en plaque mince dépend d'un entier tel que , l'espace contient des polynômes de faible degré, de dimension dépendant de et . On peut montrer que si est la fonction suivante pour puis définit un wrt conditionnellement positif . La construction concerne un opérateur différentielmm>2dFp(m)mdE(r)r0

E(r):={(1)m+1+d/2r2mdlogrd even,r2mdd odd,
g(x,x):=E(xx)FL. Il s'avère que pour et la spline en plaque mince n'est rien d'autre que la spline cubique naturelle habituelle, qui se rapporte à l'exemple de Wiener intégré ci-dessus, avec . Donc (2) n'est rien d'autre que le modèle spline de lissage habituel. Lorsque et l'espace nul a la dimension et est généré par les fonctions , et .d=1m=2g(x,x)=|xx|3d=2m=2p(m)=31x1x2

Statistiques de Cressie N pour les données spatiales . Wiley 1993.

Mardia KV, Kent JT, Goodall CR et Little JA. Krigeage et splines avec informations dérivées. Biometrika (1996), 83,1, pp. 207-221.

Modèles de spline Wahba G pour les données d'observation . SIAM 1990.

Wang, Y Lissage des cannelures, méthodes et applications . Chapman et Hall, 2011.

Yves
la source
Merci beaucoup pour l'effort que vous avez fourni. Extrêmement utile. J'ai une autre question. Ainsi, l'ajout de fonctions de base supplémentaires à (en plus des fonctions de base de ) ne change pas l'interprétation de . Ce que j'ai remarqué, cependant, c'est que la solution donnée dans ma question ci-dessus, satisfait toujours , pas seulement si . Comment cela peut-il être interprété? ϕ()Fζ()αΦα=0ϕ()F
MthQ
Oui. Dans les deux cas, il y a fonctions de base dans l'approximation de , alors que seules observations sont utilisées. Nous avons donc quelque chose comme une régression déficiente en rang avec les coefficients et . La partie n'étant pas pénalisée, elle a tendance à «absorber» plus de variation de que la partie qui apporte contraintes linéaires. Il est à noter que rien n'interdit l'utilisation de certaines des "kernel shifts" as . Si nous les utilisons tous, alors tous lesn+pf(x)nβiαjβyαpnxk(x,xi)ϕj(x)αjsont nuls, ce qui semble raisonnable.
Yves