Comment la prise en charge de la régression vectorielle fonctionne-t-elle intuitivement?

25

Tous les exemples de SVM sont liés à la classification. Je ne comprends pas comment un SVM pour la régression (support vector regressor) pourrait être utilisé dans la régression.

D'après ma compréhension, un SVM maximise la marge entre deux classes pour trouver l'hyperplan optimal. Comment cela pourrait-il fonctionner dans un problème de régression?

AA
la source

Réponses:

11

En bref: Maximiser la marge peut plus généralement être considéré comme régularisant la solution en minimisant (ce qui minimise essentiellement la complexité du modèle), cela se fait à la fois dans la classification et la régression. Mais dans le cas de la classification, cette minimisation est effectuée à la condition que tous les exemples soient classés correctement et dans le cas de la régression à la condition que la valeur de tous les exemples s'écarte moins que la précision requise de pour la régression .wyϵF(X)


Afin de comprendre comment vous passez de la classification à la régression, il est utile de voir comment les deux cas on applique la même théorie SVM pour formuler le problème comme un problème d'optimisation convexe. Je vais essayer de mettre les deux côte à côte.

(J'ignorerai les variables lâches qui permettent des erreurs de classification et des écarts supérieurs à la précision )ϵ

Classification

Dans ce cas, le but est de trouver une fonction f ( x ) 1 pour les exemples positifs et f ( x ) - 1 pour les exemples négatifs. Dans ces conditions, nous voulons maximiser la marge (distance entre les 2 barres rouges) qui n'est rien d'autre que minimiser la dérivée de f = w .F(X)=wX+bF(X)1F(X)-1F=w

L'intuition derrière la maximisation de la marge est que cela nous donnera une solution unique au problème de trouver (c'est-à-dire que nous rejetons par exemple la ligne bleue) et aussi que cette solution est la plus générale dans ces conditions, c'est-à-dire qu'elle agit comme régularisation . Cela peut être vu car, autour de la frontière de décision (où les lignes rouges et noires se croisent), l'incertitude de classification est la plus grande et le choix de la valeur la plus basse pour f ( x ) dans cette région donnera la solution la plus générale.F(X)F(X)

entrez la description de l'image ici

F(X)1F(X)-1

Régression

F(X)=wX+bF(X)ϵy(X)|y(X)-F(X)|ϵepsjelonF(X)=www=0

entrez la description de l'image ici

|y-F(X)|ϵ

Conclusion

Les deux cas entraînent le problème suivant:

min12w2

A condition que:

  • Tous les exemples sont classés correctement (Classification)
  • yϵF(X)
Lejafar
la source
0

Dans SVM pour un problème de classification, nous essayons en fait de séparer la classe autant que possible de la ligne de séparation (hyperplan) et contrairement à la régression logistique, nous créons une frontière de sécurité des deux côtés de l'hyperplan (différent entre la régression logistique et la classification SVM est dans leur fonction de perte). Éventuellement, avoir des points de données différents aussi loin que possible de l'hyperplan.

Dans SVM pour le problème de régression, nous voulons ajuster un modèle pour prédire une quantité future. Par conséquent, nous voulons que le point de données (observation) soit aussi proche que possible de l'hyperplan contrairement à SVM pour la classification. La régression SVM héritée de la régression simple comme (Ordinary Least Square) par cette différence que nous définissons une plage epsilon des deux côtés de l'hyperplan pour rendre la fonction de régression insensible à l'erreur contrairement à SVM pour la classification que nous définissons une limite à sécuriser pour la fabrication la décision future (prédiction). Finalement,

morteza
la source