Comment former un SVM via la rétropropagation?

10

Je me demandais s'il était possible de former un SVM (par exemple linéaire, pour faciliter les choses) en utilisant la rétropropagation?

Actuellement, je suis à un barrage routier, car je ne peux penser qu'à écrire la sortie du classificateur comme

f (x; θ, b) = sgn (θ \cdot x - (b + 1)) = sgn (g (x; θ, b))

$f(\mathbf{x};\theta,b) = \text{sgn}(\theta\cdot\mathbf{x} - (b+1)) = \text{sgn}(g(\mathbf{x};\theta,b))$

Par conséquent, lorsque nous essayons de calculer le "passage en arrière" (erreur propagée), nous obtenons puisque ladérivée de est

\begin{aligned} \frac{\partial E}{\partial x} & = \frac{\partial E}{\partial f (x; θ, b)} \frac{\partial f (x; θ, b)}{x} \\ = \frac{\partial E}{\partial f (x; θ, b)} \frac{\partial sgn (g (x; θ, b))}{\partial g (x; θ, b)} \frac{\partial g (x; θ, b)}{\partial x} \\ = δ \frac{d sgn (z)}{d z} θ \\ = δ \cdot 0 \cdot θ \\ = 0 \end{aligned}

$\begin{align} \frac{\partial E}{\partial \mathbf{x}} &= \frac{\partial E}{\partial f(\mathbf{x};\theta,b)} \frac{\partial f(\mathbf{x};\theta,b)}{\mathbf{x}} \\ &= \frac{\partial E}{\partial f(\mathbf{x};\theta,b)} \frac{\partial \text{sgn}(g(\mathbf{x};\theta,b))}{\partial g(\mathbf{x};\theta,b)} \frac{\partial g(\mathbf{x};\theta,b)}{\partial \mathbf{x}} \\ &= \delta \, \frac{d \text{sgn}(z)}{dz} \, \theta \\ &= \delta \cdot 0 \cdot \theta \\ &= \mathbf{0} \end{align}$

sgn (x)

$\text{sgn}(x)$

\frac{d sgn (x)}{d x} = {\begin{cases} 0 & if x \neq 0 \\ 2 δ (x) & if x = 0 \end{cases}

$\frac{d\text{sgn}(x)}{dx} = \begin{cases} 0 &\text{if $x \neq 0$}\\ 2\delta(x) &\text{if $x=0$} \end{cases}$

De même, nous constatons que , ce qui signifie que nous ne pouvons pas transmettre d'informations ou effectuer des mises à jour de gradient! $\partial E/\partial \theta = \partial E /\partial b = 0$

Ce qui donne?

machine-learning neural-networks svm gradient-descent backpropagation StevieP
la source

14

Vous avez raison de dire que si vous essayez d'optimiser directement la précision du SVM sur les cas d'entraînement, également appelés perte 0-1, le gradient disparaît. C'est pourquoi les gens ne font pas ça. :)

Ce que vous essayez de faire, cependant, n'est pas encore vraiment un SVM; c'est plutôt juste un classificateur linéaire général. Un SVM en particulier survient lorsque vous remplacez la fonction de perte 0-1 par un substitut convexe appelé perte de charnière ; cela revient à l'idée de maximisation de la marge qui est au cœur de l'idée d'un SVM. Cette fonction de perte est (presque) différenciable; le seul problème est que si des sorties sont exactement au point charnière, ce qui (a) se produit avec une probabilité nulle dans la plupart des hypothèses raisonnables et (b) alors vous pouvez simplement utiliser 0 ou 1 comme dérivée (ou quoi que ce soit entre les deux), dans auquel cas vous faites techniquement une descente de premier cycle.

Puisque vous parlez de rétropropagation, je suppose que vous êtes au moins un peu familier avec l'optimisation des réseaux de neurones. Le même problème se produit également avec les classificateurs de réseau neuronal; c'est pourquoi les gens utilisent également d'autres fonctions de perte.

Dougal
la source

A x + b

$A \mathbf{x} + b$

1

Oui, un SVM linéaire est fondamentalement équivalent à un NN à une couche avec une activation linéaire sur le nœud de sortie et entraîné via une perte de charnière.

Dougal

5

Si vous n'êtes intéressé que par le cas linéaire, alors la régression logistique (LR) est un meilleur choix, car il est à la fois convexe et analytique (vous pouvez vouloir le fausser si vous êtes intéressé par la régularisation). Mais lorsque vous optez pour le non linéaire, c'est là que la partie délicate entre en scène. Pour les cas non linéaires, il n'y a aucun moyen raisonnable de garder les choses à la fois convexes et analytiques, vous devrez sacrifier l'un des deux.Dans les réseaux neuronaux, vous sacrifiez la convexité et en svms vous sacrifiez l'holomorphisme.

à strictement parler, il n'y a pas de différence entre LR et SVM, les svms prédisent simplement de quel côté de la ligne se trouve un point, les LR prennent également en considération la distance à laquelle ils se trouvent par rapport à la frontière (sur la ligne de marge de limite, le sigmoïde vous donne la probabilité 0,5 en cas de LR). Les SVM sont obligés de faire ce compromis parce que pour les noyaux non linéaires, l'intuition de la distance d'un hyperplan incurvé (la variété algébrique est un meilleur terme) n'est pas la même que dans le cas linéaire, en fait le problème de résoudre la distance la plus courte à partir d'une hyper surface à un point spécifique est très difficile (plus dur que le SVM lui-même), mais d'un autre côté, Vapnik a réalisé qu'il suffit de prédire de quel côté de la frontière se trouve un point est très facile comme en temps O (1). C'est le véritable aperçu de SVM, ce qui en fait la seule alternative d'optimisation convexe disponible dans la théorie de l'apprentissage statistique. Mais mon sentiment est que vous sacrifiez un peu trop, l'holomorphisme et la nature probabiliste sont perdus. Mais pour des cas spécifiques tels que les SVM de vérification au sol sont très fiables et sont également des modèles scientifiques entièrement falsifiables contrairement à ses alternatives non convexes.

Tldr: oui, le théorème de la valeur moyenne vient à la rescousse des fonctions non analytiques.

Franck Dernoncourt
la source

1

Qu'est-ce que LR signifie pour vous?

Sycorax dit Réintégrer Monica

@Sycorax regression logistique

Franck Dernoncourt

Comment former un SVM via la rétropropagation?

Réponses: