Les SVM pour la classification ont un sens intuitif pour moi: je comprends comment minimiser donne la marge maximale. Cependant, je ne comprends pas cet objectif dans le contexte de la régression. Divers textes ( ici et ici ) décrivent cela comme maximisant la «planéité». Pourquoi voudrions-nous faire ça? Qu'est-ce qui, dans la régression, équivaut au concept de «marge»?
Voici quelques tentatives de réponses, mais aucune qui m'a vraiment aidé à comprendre.
regression
svm
Yang
la source
la source
Réponses:
Une façon dont je pense à la planéité est qu'elle rend mes prédictions moins sensibles aux perturbations des caractéristiques. Autrement dit, si je construis un modèle de la forme où mon vecteur caractéristique x a déjà été normalisé, des valeurs plus petites dans θ signifient que mon modèle est moins sensible aux erreurs de mesure / chocs aléatoires / non -stationnarité des fonctionnalités, x . Étant donné deux modèles ( c'est-à-dire deux valeurs possibles de θ ) qui expliquent aussi bien les données, je préfère celui «plus plat».
Vous pouvez également penser à Ridge Regression comme exécutant la même chose sans l'astuce du noyau ou la formulation de régression SVM «tube».
edit : En réponse aux commentaires de @ Yang, quelques explications supplémentaires:
la source
shabbychef a donné une explication très claire du point de vue de la complexité du modèle. J'essaierai de comprendre ce problème d'un autre point de vue au cas où cela pourrait aider quelqu'un.
N'importe qui peut facilement étendre le cas unidimensionnel au cas N-dimensionnel car l'équation de distance sera toujours la distance euclidienne .
De plus, nous pouvons avoir une revue sur le problème d'optimisation dans SVR pour la comparaison [1].
Merci.
[1] Smola, A. et B. Schölkopf. Un tutoriel sur la régression des vecteurs de support. Statistiques et informatique, vol. 14, n ° 3, août 2004, p. 199-222.
la source
la source