Régression linéaire vs régression RKHS

9

J'étudie la différence entre la régularisation dans la régression RKHS et la régression linéaire, mais j'ai du mal à saisir la différence cruciale entre les deux.

(xi,yi)f()

f(x)u(x)=i=1mαiK(x,xi),
K(,)αm
minαRn1nYKαRn2+λαTKα,
où, avec quelques abus de notation, la i,j jième entrée de la matrice du noyau K est K(xi,xj) . Cela donne
α=(K+λnI)1Y.
Alternativement, nous pourrions traiter le problème comme un problème de régression d'arête normal / de régression linéaire:
minαRn1nYKαRn2+λαTα,
avec la solution
α=(KTK+λnI)1KTY.

Quelle serait la différence cruciale entre ces deux approches et leurs solutions?

MthQ
la source
@MThQ - Votre description de la régression de crête «normale» ne fonctionne-t-elle toujours pas dans le dual? Juste pour clarifier que je pense que la régression de crête normale est supposée fonctionner dans le primal (où la représentation explicite des caractéristiques est faite).
rnoodle

Réponses:

5

Comme vous l'avez probablement remarqué en notant les problèmes d'optimisation, la seule différence dans la minimisation est la norme de Hilbert à utiliser pour la pénalisation. Autrement dit, pour quantifier les «grandes» valeurs de à des fins de pénalisation. Dans le paramètre RKHS, nous utilisons le produit interne RKHS, , tandis que la régression de crête pénalise par rapport à la norme euclidienne.ααtKα

Une conséquence intéressante est théorique comment chaque effets de la méthode du spectre du noyau reproduisant . Par la théorie RKHS, nous avons que est défini positif symétrique. Par le théorème spectral, nous pouvons écrire où est la matrice diagonale des valeurs propres et est la matrice orthonormale des vecteurs propres. Par conséquent, dans le paramètre RKHS, Pendant ce temps, dans le paramètre de régression Ridge, notez que par symétrie, KKK=UtDUDU

(K+λnI)1Y=[Ut(D+λnI)U]1Y=Ut[D+λnI]1UY.
KtK=K2
(K2+λnI)1KY=[Ut(D2+λnI)U]1KY=Ut[D2+λnI]1UKY=Ut[D2+λnI]1DUY=Ut[D+λnD1]1UY.
Soit le spectre de soit . Dans la régression RKHS, les valeurs propres sont stabilisées par . Dans la régression Ridge, nous avons . Par conséquent, RKHS modifie uniformément les valeurs propres tandis que Ridge ajoute une valeur plus grande si le correspondant est plus petit.Kν1,,νnνiνi+λnνiνi+λn/νiνi

Selon le choix du noyau, les deux estimations de peuvent être proches ou éloignées l'une de l'autre. La distance au sens l'opérateur sera Cependant, ceci est toujours limité pour un donnéα

αRKHSαRidge2=ARKHSYARidgeY2[D+λnI]1[D+λnD1]1Y2maxi=1,,n{|(νi+λn)1(νi+λn/νi)1|}Y2maxi=1,,n{λn|1νi|(νi+λn)(νi2+λn)}Y2
Y, vos deux estimateurs ne peuvent donc pas être arbitrairement éloignés l'un de l'autre. Par conséquent, si votre noyau est proche de l'identité, il y aura probablement peu de différence dans les approches. Si vos noyaux sont très différents, les deux approches peuvent toujours conduire à des résultats similaires.

En pratique, il est difficile de dire avec certitude si l'un est meilleur que l'autre pour une situation donnée. Comme nous minimisons l'erreur quadratique lorsque nous représentons les données en termes de fonction du noyau, nous choisissons effectivement une meilleure courbe de régression dans l'espace de fonctions de Hilbert correspondant. Par conséquent, pénaliser par rapport au produit intérieur RKHS semble être la manière naturelle de procéder.

Adam B Kashlak
la source
1
Avez-vous une référence pour cela?
rnoodle