NeuralNetwork monocouche avec activation ReLU égale à SVM?

10

Supposons que j'ai un réseau neuronal simple couche, avec n entrées et une seule sortie (tâche de classification binaire). Si je définis la fonction d'activation dans le nœud de sortie comme une fonction sigmoïde, le résultat est un classificateur de régression logistique.

Dans ce même scénario, si je change l'activation de la sortie en ReLU (unité linéaire rectifiée), la structure résultante est-elle identique ou similaire à un SVM?

Sinon pourquoi?

UN D
la source
avez-vous une hypothèse sur la raison pour laquelle cela pourrait être le cas? la raison pour laquelle un seul perceptron = logistique est exactement due à l'activation - ils sont essentiellement le même modèle mathématiquement (bien que peut-être formé différemment) - des poids linéaires + un sigmoïde appliqué à la multiplication matricielle. Les SVM fonctionnent très différemment - ils recherchent la meilleure ligne pour séparer les données - ils sont plus géométriques que "lourds" / "matriciels". Pour moi, il n'y a rien sur les ReLU qui devrait me faire penser = ah, c'est pareil pour un SVM. (les svm logistique et linéaire ont tendance à fonctionner de manière très similaire)
metjush
l'objectif max-margin d'un svm et la fonction d'activation relu se ressemblent. D'où la question.
AD
"Les SVM fonctionnent très différemment - ils recherchent la meilleure ligne pour séparer les données - ils sont plus géométriques que" lourds "/" matriciels ". C'est un peu ondulé à la main - TOUS les classificateurs linéaires recherchent la meilleure ligne pour séparer les données, y compris la régression logistique et perceptron.
AD

Réponses:

11

E=muneX(1-ty,0)

Pour que la perte de réseau soit sous la même forme que les SVM, nous pouvons simplement supprimer toutes les fonctions d'activation non linéaires de la couche de sortie et utiliser la perte de charnière pour la rétropropagation.

E=ln(1+eXp(-ty))

Donc, en termes de fonctions de perte, les SVM et la régression logistique sont assez proches, bien que les SVM utilisent un algorithme très différent pour la formation et l'inférence basé sur des vecteurs de support.

Il y a une belle discussion sur la relation entre SVM et la régression logistique dans la section 7.1.2 du livre Pattern Recognition and Machine Learning .

entrez la description de l'image ici

dontloo
la source
merci d'avoir pointé le livre. J'ai donc l'impression qu'en dehors des fonctions d'activation, la vraie différence réside dans les algorithmes d'optimisation utilisés. Pour LR, nous pouvons utiliser une descente de gradient simple sans contrainte, tandis que dans SVM, nous résolvons généralement une optimisation contrainte.
AD