Comprendre la régression SVM: fonction objective et «planéité»

12

Les SVM pour la classification ont un sens intuitif pour moi: je comprends comment minimiser donne la marge maximale. Cependant, je ne comprends pas cet objectif dans le contexte de la régression. Divers textes ( ici et ici ) décrivent cela comme maximisant la «planéité». Pourquoi voudrions-nous faire ça? Qu'est-ce qui, dans la régression, équivaut au concept de «marge»?||θ||2

Voici quelques tentatives de réponses, mais aucune qui m'a vraiment aidé à comprendre.

Yang
la source
Je ne suis pas vraiment sur la théorie SVM, mais la `` planéité '' dans la discussion noyau-machines à laquelle vous vous connectez semble équivaloir à: `` a une petite dérivée seconde '' (pensez à la motivation typique des modèles de lissage de spline).
conjugateprior

Réponses:

11

Une façon dont je pense à la planéité est qu'elle rend mes prédictions moins sensibles aux perturbations des caractéristiques. Autrement dit, si je construis un modèle de la forme où mon vecteur caractéristique x a déjà été normalisé, des valeurs plus petites dans θ signifient que mon modèle est moins sensible aux erreurs de mesure / chocs aléatoires / non -stationnarité des fonctionnalités, x . Étant donné deux modèles ( c'est-à-dire deux valeurs possibles de θ ) qui expliquent aussi bien les données, je préfère celui «plus plat».

y=xθ+ϵ,
xθxθ

Vous pouvez également penser à Ridge Regression comme exécutant la même chose sans l'astuce du noyau ou la formulation de régression SVM «tube».

edit : En réponse aux commentaires de @ Yang, quelques explications supplémentaires:

  1. Considérons le cas linéaire: . Supposons que les x soient tirés iid d'une certaine distribution, indépendante de θ . Par l'identité du produit scalaire, nous avons y = | | x | | | | θ | | cos ψ + ϵ , où ψ est l'angle entre θ et x , qui est probablement distribué sous une distribution sphérique uniforme. Remarquez maintenant: la «propagation» ( par exemple, l’écart type de l’échantillon) de nos prévisions dey=xθ+ϵxθy=||x||||θ||cosψ+ϵψθx est proportionnel à | | θ | | . Pour obtenir une bonne MSE avec les versions latentes et silencieuses de nos observations, nous voulons réduire cela | | θ | | . cf Estimateur deJames Stein.y||θ||||θ||
  2. Considérez le cas linéaire avec beaucoup de fonctionnalités. Considérons les modèles et y = x θ 2 + ϵ . Si θ 1 contient plus de zéro éléments que θ 2 , mais à peu près le même pouvoir explicatif, nous le préférerions, sur la base du rasoir d'Occam, car il dépend de moins de variables (c'est-à-dire quenous avons `` fait la sélection des fonctionnalités '' en définissant certains éléments de θ 1 à zéro). La planéité est une sorte de version continue de cet argument. Si chaque marginal de xy=xθ1+ϵy=xθ2+ϵθ1θ2θ1xa un écart-type unitaire, et a par exemple 2 éléments qui sont 10, et les n - 2 restants sont inférieurs à 0,0001, en fonction de votre tolérance au bruit, cela "sélectionne" effectivement les deux caractéristiques et remet à zéro les autres .θ1n2
  3. Lorsque l'astuce du noyau est utilisée, vous effectuez une régression linéaire dans un espace vectoriel dimensionnel élevé (parfois infini). Chaque élément de correspond maintenant à l'un de vos échantillons , pas à vos caractéristiques . Si k éléments de θ sont non nuls et que les m - k restants sont nuls, les caractéristiques correspondant aux k éléments non nuls de θ sont appelées vos «vecteurs de support». Pour stocker votre modèle SVM, disons sur le disque, il vous suffit de conserver ces k vecteurs de fonctionnalités, et vous pouvez jeter le reste d'entre eux. Maintenant, la planéité compte vraiment , car avoir kθkθmkkθkkpetite réduit les exigences de stockage et de transmission, etc. Encore une fois, selon votre tolérance au bruit, vous pouvez probablement mettre à zéro tous les éléments de mais le l le plus grand, pour certains l , après avoir effectué une régression SVM. La planéité ici est équivalente à la parcimonie en ce qui concerne le nombre de vecteurs de support.θll
shabbychef
la source
1
c'est donc essentiellement une régression avec une fonction de perte «tube» (0 pénalité pour les points +/- epsilon de la prédiction) plutôt que la fonction de perte quadratique de l'OLS?
conjugateprior
@Conjugate Prior: oui, généralement la régression du noyau minimise une fonction de «perte insensible à l'epsilon», que vous pouvez considérer comme f(x)=(|x|ϵ)+
@shabbychef Merci. Je me suis toujours demandé ce qui se passait là-bas.
conjugateprior
@Conjugate Prior: Je ne pense pas que ce soit en fait la fonction de perte souhaitée, mais les calculs finissent par bien fonctionner, alors ils ont couru avec. Du moins, c'est mon soupçon.
shabbychef
y=θxθϵθ=1e91θ=1e9θ=1e9+1
3

shabbychef a donné une explication très claire du point de vue de la complexité du modèle. J'essaierai de comprendre ce problème d'un autre point de vue au cas où cela pourrait aider quelqu'un.

e

(xi,yi)y=ωx+bee

|ωxiyi+b|ω2+1

eω

N'importe qui peut facilement étendre le cas unidimensionnel au cas N-dimensionnel car l'équation de distance sera toujours la distance euclidienne .

De plus, nous pouvons avoir une revue sur le problème d'optimisation dans SVR pour la comparaison [1].

min12||ω||2
s.t.{yi<ω,xi>be<ω,xi>+byie

Merci.

[1] Smola, A. et B. Schölkopf. Un tutoriel sur la régression des vecteurs de support. Statistiques et informatique, vol. 14, n ° 3, août 2004, p. 199-222.

oloopy
la source