Quelle est la relation entre un SVM et la perte de charnière?

9

Mon collègue et moi essayons de comprendre la différence entre la régression logistique et un SVM. De toute évidence, ils optimisent différentes fonctions objectives. Un SVM est-il aussi simple que de dire qu'il s'agit d'un classificateur discriminant qui optimise simplement la perte de charnière? Ou est-ce plus complexe que ça? Comment les vecteurs de support entrent-ils en jeu? Et les variables slack? Pourquoi ne pouvez-vous pas avoir de SVM profond comme vous ne pouvez pas avoir un réseau neuronal profond avec des fonctions d'activation sigmoïde?

Simon
la source
J'ai obtenu une réponse raisonnable ici: stats.stackexchange.com/questions/187186/…
Simon
1
Je vote pour fermer cette question car il s'agit d'une publication croisée
Martin Thoma

Réponses:

6

Ce sont deux modèles discriminants, oui. La fonction de perte de régression logistique est conceptuellement une fonction de tous les points. Des points correctement classés ajoutent très peu à la fonction de perte, en ajoutant plus s'ils sont proches de la frontière. Les points proches de la frontière sont donc plus importants pour la perte et donc décident de la qualité de la frontière.

SVM utilise une perte de charnière, qui met conceptuellement l'accent sur les points limites. Tout ce qui est plus loin que les points les plus proches ne contribue en rien à la perte en raison de la "charnière" (le max) dans la fonction. Ces points les plus proches sont simplement les vecteurs de support. Par conséquent, cela se réduit à choisir une frontière qui crée la plus grande marge - distance au point le plus proche. La théorie est que le cas limite est tout ce qui compte vraiment pour la généralisation.

L'inconvénient est que la perte de charnière n'est pas différenciable, mais cela signifie simplement qu'il faut plus de mathématiques pour découvrir comment l'optimiser via les multiplicateurs de Lagrange. Il ne gère pas vraiment le cas où les données ne sont pas linéairement séparables. Les variables lentes sont une astuce qui permet d'intégrer proprement cette possibilité dans le problème d'optimisation.

Vous pouvez utiliser la perte de charnière avec le «deep learning», par exemple http://arxiv.org/pdf/1306.0239.pdf

Sean Owen
la source