Quel est le modèle statistique derrière l'algorithme SVM?

J'ai appris que lorsque l'on traite des données à l'aide d'une approche basée sur un modèle, la première étape consiste à modéliser la procédure de données comme un modèle statistique. Ensuite, l'étape suivante consiste à développer un algorithme d'inférence / apprentissage efficace / rapide basé sur ce modèle statistique. Je veux donc demander quel modèle statistique est derrière l'algorithme de la machine à vecteurs de support (SVM)?

machine-learning svm modeling Huy Nguyen
la source

Réponses:

Vous pouvez souvent écrire un modèle qui correspond à une fonction de perte (ici je vais parler de régression SVM plutôt que de classification SVM; c'est particulièrement simple)

Par exemple, dans un modèle linéaire, si votre fonction de perte est minimisation correspondra à la probabilité maximale pour $\sum_i g(\varepsilon_i) = \sum_i g(y_i-x_i'\beta)$ $f\propto \exp(-a\,g(\varepsilon))$ $= \exp(-a\,g(y-x'\beta))$ . (Ici, j'ai un noyau linéaire)

Si je me souviens bien, la régression SVM a une fonction de perte comme celle-ci:

Cela correspond à une densité uniforme au milieu avec des queues exponentielles (comme nous le voyons en exponentiant son négatif, ou un multiple de son négatif).

Il existe une famille de 3 paramètres: l'emplacement des coins (seuil d'insensibilité relative) plus l'emplacement et l'échelle.

C'est une densité intéressante; si je me souviens bien de la lecture de cette distribution particulière il y a quelques décennies, un bon estimateur de l'emplacement car il s'agit de la moyenne de deux quantiles placés symétriquement correspondant à l'emplacement des coins (par exemple, midhinge donnerait une bonne approximation de MLE pour un particulier choix de la constante dans la perte SVM); un estimateur similaire pour le paramètre d'échelle serait basé sur leur différence, tandis que le troisième paramètre correspond essentiellement à déterminer le centile des coins (cela pourrait être choisi plutôt qu'estimé comme c'est souvent le cas pour SVM).

Donc, au moins pour la régression SVM, cela semble assez simple, du moins si nous choisissons d'obtenir nos estimateurs par maximum de vraisemblance.

(Dans le cas où vous êtes sur le point de demander ... Je n'ai aucune référence pour cette connexion particulière à SVM: je viens de résoudre cela maintenant. C'est si simple, cependant, que des dizaines de personnes l'auront réglé avant moi, donc sans aucun doute il y a des références - je n'en ai jamais vu.)

Glen_b -Reinstate Monica
la source

(J'ai répondu à cela plus tôt ailleurs mais j'ai supprimé cela et l'ai déplacé ici quand je vous ai vu également demandé ici; la capacité d'écrire des mathématiques et d'inclure des images est bien meilleure ici - et la fonction de recherche est meilleure aussi, il est donc plus facile de trouver dans quelques mois)

Glen_b -Reinstate Monica

ℓ_{2}

$\ell_2$

Si l'OP pose des questions sur les SVM, il est probablement intéressé par la classification (qui est l'application la plus courante des SVM). Dans ce cas, la perte est une perte de charnière qui est un peu différente (vous n'avez pas la partie croissante). Concernant le modèle, j'ai entendu des universitaires dire lors de la conférence que les SVM ont été introduits pour effectuer la classification sans avoir à utiliser un cadre probabiliste. C'est probablement pourquoi vous ne pouvez pas trouver de références. D'un autre côté, vous pouvez et vous

refondez la

Ce n'est pas parce que vous n'avez pas besoin d'un cadre probabiliste que ce que vous faites ne correspond pas à un. On peut faire le moins de carrés sans supposer la normalité, mais il est utile de comprendre que c'est ce qu'il fait bien ... et quand vous n'êtes nulle part, c'est peut-être beaucoup moins bien.

Glen_b -Reinstate Monica

Peut-être que icml-2011.org/papers/386_icmlpaper.pdf est une référence pour cela? (Je l'ai seulement survolé)

Lyndon White

Je pense que quelqu'un a déjà répondu à votre question littérale, mais permettez-moi de dissiper une confusion potentielle.

Votre question est quelque peu similaire à la suivante:

$f(x) = \ldots$

En d' autres termes, il certainement a une réponse valable (peut - être même un moment unique si vous imposez des contraintes de régularité), mais il est une question plutôt étrange de demander, car il n'a pas été une équation différentielle qui a donné lieu à cette fonction en premier lieu.
(D'un autre côté, étant donné l'équation différentielle, il est naturel de demander sa solution, car c'est généralement pourquoi vous écrivez l'équation!)

Voici pourquoi: je pense que vous pensez à des modèles probabilistes / statistiques - en particulier, des modèles génératifs et discriminants , basés sur l'estimation des probabilités conjointes et conditionnelles à partir de données.

Le SVM n'est ni l'un ni l'autre. C'est un type de modèle complètement différent - un modèle qui les contourne et tente de modéliser directement la frontière de décision finale, les probabilités soient sacrément condamnées.

Puisqu'il s'agit de trouver la forme de la frontière de décision, l'intuition derrière elle est géométrique (ou peut-être devrions-nous dire basée sur l'optimisation) plutôt que probabiliste ou statistique.

Étant donné que les probabilités ne sont vraiment prises en compte nulle part en cours de route, il est donc plutôt inhabituel de se demander ce que pourrait être un modèle probabiliste correspondant, et d'autant plus que l'objectif global était d' éviter d' avoir à se soucier des probabilités. C'est pourquoi vous ne voyez pas les gens en parler.

Mehrdad
la source

Je pense que vous actualisez la valeur des modèles statistiques sous-jacents à votre procédure. La raison pour laquelle elle est utile est qu'elle vous indique les hypothèses derrière une méthode. Si vous les connaissez, vous êtes en mesure de comprendre les situations dans lesquelles il se battra et quand il se développera. Vous pouvez également généraliser et étendre svm d'une manière basée sur des principes si vous avez le modèle sous-jacent.

Probabilogic

@probabilityislogic: "Je pense que vous actualisez la valeur des modèles statistiques sous-jacents à votre procédure." ... Je pense que nous parlons les uns aux autres. Ce que j'essaie de dire, c'est qu'il n'y a pas de modèle statistique derrière la procédure. Je ne dis pas qu'il n'est pas possible d'en trouver un qui lui convienne a posteriori, mais j'essaie d'expliquer qu'il n'était pas "derrière" en aucune façon, mais plutôt "adapté" à cela après coup . Je ne dis pas non plus que faire une telle chose est inutile; Je suis d'accord avec vous que cela pourrait se terminer avec une valeur énorme. Veuillez garder ces distinctions à l'esprit.

Mehrdad

@Mehrdad: Je ne dis pas qu'il n'est pas possible d'en trouver un qui lui convienne a posteriori, L'ordre dans lequel les morceaux de ce que nous appelons la machine svm ont été assemblés (quel problème les humains qui l'ont conçu essayaient à l'origine à résoudre) est intéressant d'un point de vue historique de la science. Mais pour tout ce que nous savons, il pourrait y avoir un manuscrit encore inconnu dans une bibliothèque contenant une description du moteur svm d'il y a 200 ans qui attaque le problème sous l'angle exploré par Glen_b. Peut-être que les notions d' a posteriori et après coup sont moins fiables en science.

user603

@ user603: Ce n'est pas seulement l'historique qui pose problème ici. L'aspect historique n'en est que la moitié. L'autre moitié est de savoir comment il dérive normalement dans la réalité. Cela commence comme un problème de géométrie et se termine par un problème d'optimisation. Personne ne part du modèle probabiliste dans la dérivation, ce qui signifie que le modèle probabiliste n'était en aucun cas «derrière» le résultat. C'est comme affirmer que la mécanique lagrangienne est "derrière" F = ma. Peut-être que cela peut y conduire, et oui c'est utile, mais non, ce n'est pas et n'a jamais été la base de cela. En fait, tout l'objectif était d' éviter la probabilité.

Mehrdad