Quelle est la fonction de perte du SVM à marge dure?

23

Les gens disent que la marge douce SVM utilise la fonction de perte de charnière: max(0,1yi(wxi+b)) . Cependant, la fonction objective réelle que la marge douce SVM essaie de minimiser est

12w2+Cimax(0,1yi(wxi+b))
Certains auteurs appellent le régularisateur de termes w2 et la fonction de perte de terme max(0,1yi(wxi+b)) .

Cependant, pour le SVM à marge dure, la fonction objectif entière est juste

12w2
Cela signifie-t-il que le SVM à marge dure ne minimise qu'un régularisateur sans fonction de perte? Cela semble très étrange.

Eh bien, si 12w2 est la fonction de perte dans ce cas, pouvons-nous l'appeler fonction de perte quadratique? Dans l'affirmative, pourquoi la fonction de perte de la marge dure SVM devient un régularisateur dans la marge douce SVM et fait un changement de la perte quadratique à la perte de la charnière?

Roun
la source
Pour ce que je comprends, la marge dure signifie que vous n'acceptez pas les données dans votre marge. Par conséquent, max (0, calcul) renverra toujours 0.
fxm

Réponses:

26

Le terme de perte de charnière imax(0,1yi(wxi+b)) en marge souple SVM pénalise les erreurs de classification . Dans SVM à marge dure, il n'y a, par définition, aucune erreur de classification.

Cela signifie en effet que la marge dure SVM essaie de minimiser w2 . En raison de la formulation du problème SVM, la marge est de 2/w. En tant que tel, minimiser la norme de w est géométriquement équivalent à maximiser la marge. Exactement ce que nous voulons!

La régularisation est une technique pour éviter le sur-ajustement en pénalisant les coefficients importants dans le vecteur solution. En marge dure, SVM est à la fois la fonction de perte et un régularisateur .w2L2

Dans le SVM à marge douce, le terme de perte de charnière agit également comme un régularisateur mais sur les variables lentes au lieu de et dans plutôt que . régularisation induit la rareté, c'est pourquoi le SVM standard est rare en termes de vecteurs de support (contrairement au SVM des moindres carrés).wL1L2L1

Marc Claesen
la source
Pouvez-vous expliquer les deux derniers paragraphes avec plus de détails et de mathématiques?
Nain
0

Juste pour clarifier, est minimisé sous la contrainte que les points sont linéairement séparables (c'est-à-dire que l'on peut dessiner un hyperplan qui sépare parfaitement les deux). En d'autres termes, les seules valeurs autorisées de w que nous pouvons considérer comme solutions sont celles qui séparent les deux ensembles de points.

12w2

Maintenant, on pense que la marge dure SVM "s'ajuste" plus facilement que la marge souple. Ceci est plus facile à imaginer avec un SVM RBF avec un suffisamment élevé , ce qui peut créer des limites de décision (trop) compliquées et (potentiellement) trop ajustées. Plus la marge est difficile (émulée de façon imprécise avec un "C" plus élevé), plus la recherche tentera de trouver des limites de décision qui classent parfaitement les deux ensembles de points.γ

Lorsque nous passons à la "marge douce", les contraintes sont assouplies et remplacées par une retenue grâce à l'introduction du "mou". Cette variable de jeu est définie par un terme de "perte de charnière". Après simplification, on arrive à la charnière + l2 comme terme de perte que tout le monde associe aux SVM. FWIW, j'aime encadrer les SVM comme un problème d'optimisation plutôt que comme le problème omniprésent de "suivre les gradients".

Ishan Patel
la source