Comment les SVM = correspondance de modèles?

10

J'ai lu sur les SVM et j'ai appris qu'ils résolvaient un problème d'optimisation et l'idée de marge maximale était très raisonnable.

Maintenant, en utilisant des noyaux, ils peuvent même trouver des limites de séparation non linéaires, ce qui était génial.

Jusqu'à présent, je n'ai vraiment aucune idée de la façon dont les SVM (une machine spéciale du noyau) et les machines du noyau sont liés aux réseaux de neurones?

Considérez les commentaires de Yann Lecun => ici :

kernel methods were a form of glorified template matching

et ici aussi :

Par exemple, certaines personnes ont été éblouies par les méthodes du noyau à cause des mathématiques mignonnes qui vont avec. Mais, comme je l'ai dit dans le passé, à la fin, les machines du noyau sont des réseaux superficiels qui effectuent une «correspondance de modèle glorifiée». Il n'y a rien de mal à cela (SVM est une excellente méthode), mais il a de terribles limites dont nous devrions tous être conscients.

Mes questions sont donc:

  1. Quel est le lien entre SVM et le réseau neuronal? Comment est-ce un réseau peu profond?
  2. SVM résout un problème d'optimisation avec une fonction objectif bien définie, comment fait-il la correspondance des modèles? Quel est le modèle ici auquel une entrée est mise en correspondance?

Je suppose que ces commentaires nécessitent une compréhension approfondie des espaces de grande dimension, des réseaux de neurones et des machines à noyau, mais jusqu'à présent, j'ai essayé et je n'ai pas pu comprendre la logique derrière cela. Mais il est sûrement intéressant de noter les liens entre deux techniques ml très très différentes.

EDIT: Je pense que la compréhension des SVM d'un point de vue neuronal serait formidable. Je suis à la recherche d'une réponse approfondie soutenue par les mathématiques aux deux questions ci-dessus, afin de vraiment comprendre le lien entre les SVM et les réseaux neuronaux, à la fois dans le cas des SVM linéaires et des SVM avec l'astuce du noyau.

Rafael
la source
Les SVM sont assez faciles et rapides à former avec un noyau approprié. Certaines tâches n'ont pas besoin d'un réseau neuronal profond.
Vladislavs Dovgalecs
@xeon salut, pouvez-vous jeter un oeil à la réponse, je suppose qu'elle doit être améliorée. Merci.
Rafael

Réponses:

7
  1. Quel est le lien entre SVM et le réseau neuronal? Comment est-ce un réseau peu profond?

Le SVM est un réseau neuronal monocouche avec la perte de charnière comme fonction de perte et une activation exclusivement linéaire. Le concept a été évoqué dans les threads précédents, comme celui-ci: NeuralNetwork monocouche avec activation RelU égale à SVM?

  1. SVM résout un problème d'optimisation avec une fonction objectif bien définie, comment fait-il la correspondance des modèles? Quel est le modèle ici auquel une entrée est mise en correspondance?

La Gram Matrix (Kernel Matrix, si vous préférez) est une mesure de similitude. Comme le SVM permet des solutions éparses, la prédiction devient une question de comparaison de votre échantillon avec les modèles, c'est-à-dire les vecteurs de support.

Pyromane
la source
merci pour la réponse, veuillez expliquer un peu plus avec quelques mathématiques de préférence. Ce serait vraiment génial :)
Rafael
Je comprends plus ou moins la correspondance entre les modèles, mais je n'ai pas eu la déclaration: comme SVM autorise des solutions éparses .. qu'est-ce que les solutions éparses ont à faire ici? La prédiction par définition se fait par une similitude de pondération avec les modèles, donc je ne sais pas d'où vient la rareté. Veuillez également ajouter quelques lignes concernant la fonction d'activation de la perte de charnière. Merci beaucoup :)
Rafael