Comparaison SVM et régression logistique

37

Quelqu'un peut-il me donner s'il vous plaît une certaine intuition quant au moment de choisir SVM ou LR? Je veux comprendre l'intuition de la différence entre les critères d'optimisation d'apprentissage de l'hyperplan des deux, dont les objectifs respectifs sont les suivants:

  • SVM: essayez de maximiser la marge entre les vecteurs de support les plus proches.
  • LR: Maximise la probabilité de classe postérieure

Considérons l'espace d'entité linéaire pour SVM et LR.

Quelques différences que je connais déjà:

  1. SVM est déterministe (mais nous pouvons utiliser le modèle de Platts pour le score de probabilité), tandis que LR est probabiliste.
  2. SVM est plus rapide pour l’espace noyau (stocke uniquement les vecteurs supportés)
utilisateur41799
la source
2
Cette affirmation est fausse: " LR: Maximise la probabilité de classe postérieure ". La régression logistique maximise la probabilité, pas une certaine densité postérieure. La régression logistique bayésienne est une histoire différente, mais vous devez être spécifique à ce sujet si vous faites référence à cela.
Digio

Réponses:

30

Les SVM linéaires et la régression logistique fonctionnent généralement de manière comparable dans la pratique. Utilisez SVM avec un noyau non linéaire si vous avez des raisons de penser que vos données ne seront pas séparables linéairement (ou si vous devez être plus robuste pour les valeurs aberrantes que ce que LR ne tolérera normalement). Sinon, essayez d’abord la régression logistique et voyez comment vous allez avec ce modèle plus simple. Si la régression logistique échoue, essayez une SVM avec un noyau non linéaire comme un RBF.

MODIFIER:

Ok, parlons d'où viennent les fonctions objectives.

La régression logistique provient de la régression linéaire généralisée. Une bonne discussion de la fonction d’objectif de régression logistique dans ce contexte peut être trouvée ici: https://stats.stackexchange.com/a/29326/8451

L'algorithme Support Vector Machines est beaucoup plus motivé géométriquement . Au lieu de supposer un modèle probabiliste, nous essayons de trouver un hyperplan de séparation optimal particulier, dans lequel nous définissons "l'optimalité" dans le contexte des vecteurs de support. Nous n’avons rien de semblable au modèle statistique que nous utilisons dans la régression logistique ici, même si le cas linéaire nous donnera des résultats similaires: cela signifie simplement que la régression logistique produit un assez bon travail en produisant des classificateurs "à marge large", car tout ce que SVM essaie de faire (plus précisément, SVM essaie de "maximiser" la marge entre les classes).

J'essaierai d'y revenir plus tard et d'approfondir un peu les mauvaises herbes, je suis en quelque sorte au milieu de quelque chose: p

David Marx
la source
1
Mais cela ne répond toujours pas à ma question sur la différence intuitive entre les fonctions objectives de SVM v / s LR, qui sont les suivantes: (a) SVM: essayez de maximiser la marge entre les vecteurs de support les plus proches (b) LR: Maximisez la probabilité de classe postérieure
user41799
Je veux dire, c'est une question complètement différente. Voulez-vous savoir quand utiliser les modèles ou ce qui motive la forme de leurs fonctions objectives?
David Marx
1
Je suis plus intéressé par ce qui motive la forme de leurs fonctions objectives
user41799
4
J'essaierai d'y revenir plus tard et d'approfondir un peu les mauvaises herbes, je suis en quelque sorte en plein milieu de quelque chose. Quatre ans plus tard ...
user1717828
23

Régression logistique vs SVM

Image signifie la différence entre SVM et la régression logistique et où utiliser quelle méthode

cette image provient du cours coursera: "machine learning" de Andrew NG. Il peut être trouvé dans la semaine 7 à la fin de: "Machines à vecteurs de support - utilisant un SVM"

JSONParser
la source
Par "caractéristiques", voulez-vous dire le nombre d'attributs uniques ou le nombre total de valeurs uniques appartenant à ces attributs?
Ahmedov
exemple: dans la prévision du prix du caoutchouc pour les prix, une caractéristique est le prix de l'essence, on est la météo, etc.
JSONParser le
En fait, l'image ne dit rien de leurs différences ...
Jan Kukacka
la différence peut être fausse, la comparaison de mots peut être meilleure
JSONParser
1
  • LR donne des probabilités calibrées qui peuvent être interprétées comme une confiance dans une décision.
  • LR nous donne un objectif sans contrainte et lisse.
  • LR peut être utilisé (directement) dans les modèles bayésiens.
  • Les SVM ne pénalisent pas les exemples pour lesquels la décision correcte est prise avec suffisamment de confiance. Cela peut être bon pour la généralisation.
  • Les SVM ont une belle forme double, donnant des solutions éparses lors de l’utilisation du truc du noyau (meilleure évolutivité)

Découvrez les machines à vecteurs de support vs régression logistique, Université de Toronto CSC2515, par Kevin Swersky.

Chankey Pathak
la source