Intuition pour le paramètre de régularisation dans SVM

11

Comment la variation du paramètre de régularisation dans un SVM change-t-elle la frontière de décision pour un ensemble de données non séparables? Une réponse visuelle et / ou un commentaire sur les comportements limitants (pour les grandes et petites régularisations) serait très utile.

ASX
la source

Réponses:

17

Le paramètre de régularisation (lambda) sert de degré d'importance accordé aux classifications manquantes. SVM pose un problème d'optimisation quadratique qui cherche à maximiser la marge entre les deux classes et à minimiser la quantité de classifications erronées. Cependant, pour les problèmes non séparables, afin de trouver une solution, la contrainte de mauvaise classification doit être assouplie, et cela se fait en définissant la "régularisation" mentionnée.

Donc, intuitivement, à mesure que lambda grandit, moins les exemples mal classés sont autorisés (ou le plus élevé est le prix à payer dans la fonction de perte). Ensuite, lorsque lambda tend vers l'infini, la solution tend vers la marge dure (ne permet aucune classification erronée). Lorsque lambda tend vers 0 (sans être 0), plus les classifications manquées sont autorisées.

Il y a certainement un compromis entre ces deux lambdas et normalement plus petits, mais pas trop petits, se généralisent bien. Voici trois exemples de classification SVM linéaire (binaire).

Lambda SVM linéaire = 0,1 SVM linéaire Lambda = 1 entrez la description de l'image ici

Pour SVM à noyau non linéaire, l'idée est similaire. Compte tenu de cela, pour des valeurs plus élevées de lambda, il existe une possibilité plus élevée de sur-ajustement, tandis que pour des valeurs plus faibles de lambda, il existe des possibilités plus élevées de sous-ajustement.

Les images ci-dessous montrent le comportement du noyau RBF, laissant le paramètre sigma fixé sur 1 et essayant lambda = 0,01 et lambda = 10

RBF Kernel SVM lambda = 0,01 RBF Kernel SVM lambda = 10

Vous pouvez dire que le premier chiffre où lambda est plus faible est plus "détendu" que le deuxième chiffre où les données sont destinées à être ajustées plus précisément.

(Diapositives du professeur Oriol Pujol. Universitat de Barcelona)

Javierfdr
la source
Belles photos! Les avez-vous créés vous-même? Si oui, vous pouvez peut-être partager le code pour les dessiner?
Alexey Grigorev
beaux graphismes. en ce qui concerne les deux derniers => du texte, on penserait implicitement que la première image est celle avec lambda = 0,01, mais d'après ma compréhension (et pour être cohérent avec le graphique du début) c'est celle avec lambda = 10. parce que c'est clairement celui qui a le moins de régularisation (le plus adapté, le plus détendu).
Wim 'titte' Thiels
^ c'est aussi ce que je comprends. Le haut des deux graphiques en couleur montre clairement plus de contours pour la forme des données, de sorte que doit être le graphique où la marge de l'équation SVM a été favorisée avec un lambda plus élevé. Le bas des deux graphiques en couleurs montre une classification plus détendue des données (petit groupe de bleu dans la zone orange), ce qui signifie que la maximisation de la marge n'a pas été privilégiée par rapport à la minimisation de la quantité d'erreur dans la classification.
Brian Ambielli