Je me demandais s'il était possible de former un SVM (par exemple linéaire, pour faciliter les choses) en utilisant la rétropropagation?
Actuellement, je suis à un barrage routier, car je ne peux penser qu'à écrire la sortie du classificateur comme
Par conséquent, lorsque nous essayons de calculer le "passage en arrière" (erreur propagée), nous obtenons puisque ladérivée desgn(x)est dsgn(x)
De même, nous constatons que , ce qui signifie que nous ne pouvons pas transmettre d'informations ou effectuer des mises à jour de gradient!
Ce qui donne?
Si vous n'êtes intéressé que par le cas linéaire, alors la régression logistique (LR) est un meilleur choix, car il est à la fois convexe et analytique (vous pouvez vouloir le fausser si vous êtes intéressé par la régularisation). Mais lorsque vous optez pour le non linéaire, c'est là que la partie délicate entre en scène. Pour les cas non linéaires, il n'y a aucun moyen raisonnable de garder les choses à la fois convexes et analytiques, vous devrez sacrifier l'un des deux.Dans les réseaux neuronaux, vous sacrifiez la convexité et en svms vous sacrifiez l'holomorphisme.
à strictement parler, il n'y a pas de différence entre LR et SVM, les svms prédisent simplement de quel côté de la ligne se trouve un point, les LR prennent également en considération la distance à laquelle ils se trouvent par rapport à la frontière (sur la ligne de marge de limite, le sigmoïde vous donne la probabilité 0,5 en cas de LR). Les SVM sont obligés de faire ce compromis parce que pour les noyaux non linéaires, l'intuition de la distance d'un hyperplan incurvé (la variété algébrique est un meilleur terme) n'est pas la même que dans le cas linéaire, en fait le problème de résoudre la distance la plus courte à partir d'une hyper surface à un point spécifique est très difficile (plus dur que le SVM lui-même), mais d'un autre côté, Vapnik a réalisé qu'il suffit de prédire de quel côté de la frontière se trouve un point est très facile comme en temps O (1). C'est le véritable aperçu de SVM, ce qui en fait la seule alternative d'optimisation convexe disponible dans la théorie de l'apprentissage statistique. Mais mon sentiment est que vous sacrifiez un peu trop, l'holomorphisme et la nature probabiliste sont perdus. Mais pour des cas spécifiques tels que les SVM de vérification au sol sont très fiables et sont également des modèles scientifiques entièrement falsifiables contrairement à ses alternatives non convexes.
Tldr: oui, le théorème de la valeur moyenne vient à la rescousse des fonctions non analytiques.
la source