Interprétation de la distance depuis l'hyperplan dans SVM

14

J'ai quelques doutes quant à la compréhension intuitive des SVM. Supposons que nous ayons formé un modèle SVM pour la classification en utilisant un outil standard comme SVMLight ou LibSVM.

  1. Lorsque nous utilisons ce modèle pour la prédiction sur les données de test, le modèle génère un fichier ayant des valeurs "alpha" pour chaque point de test. Si la valeur alpha est positive, le point de test appartient à la classe 1, sinon il appartient à la classe 2. Maintenant, peut-on dire qu'un point de test avec une valeur "alpha" supérieure appartient à la classe correspondante avec une probabilité "plus élevée"?

  2. Similaire à la première question, lorsque nous avons un SVM formé. Les SV se trouvent très près de l'hyperplan. Cela signifie-t-il donc que les SV appartiennent à cette classe avec une forte probabilité? Pouvons-nous relier la probabilité d'un point appartenant à une classe à sa distance à "l'hyperplan"? La valeur "alpha" représente-t-elle la distance de "l'hyperplan"?

Merci pour votre contribution.

Amit
la source
Je pense que la réponse est "non", mais je ne suis pas assez dans les SVM pour vous donner une réponse complète. Ma réponse instinctive est que lorsque vous êtes du côté est du mur de Berlin, eh bien vous êtes juste du mauvais côté, peu importe à quelle distance vous en êtes.
Arthur
scikits.learn a predict_proba pour SVC et linear_model.SGDClassifier, je crois pour les classificateurs binaires uniquement; Je ne l'ai pas utilisé cependant.
denis

Réponses:

18

w 2 2 w p ( w | ( y 1 , x 1 ) , . . . , ( Y m , x m ) ) α 1 / Z exp ( - w 2 2 ) jeyje-w,Xje-b22w22ww Zp(w|(y1,X1),...,(ym,Xm))1/Zexp(-w22)jeexp(yje-w,Xje-b22)wZs'assure qu'il se normalise). Vous obtenez la probabilité gaussienne de la fonction de perte en retournant son signe et en l'exponentiant. Cependant, si vous le faites avec la fonction de perte du SVM, la log-vraisemblance n'est pas un modèle probabiliste normalisable.

Il y a des tentatives pour transformer SVM en un. Le plus notable, qui est, je pense, également implémenté dans libsvm est:

John Platt: Sorties probabilistes pour les machines à vecteurs de support et comparaison avec les méthodes de vraisemblance régularisées (NIPS 1999): http://www.cs.colorado.edu/~mozer/Teaching/syllabi/6622/papers/Platt1999.pdf

Pour répondre plus précisément à votre question: L'idée dans les SVM est en effet que plus un vecteur de test est éloigné de l'hyperplan, plus il appartient à une certaine classe (sauf quand il est du mauvais côté bien sûr). En ce sens, les vecteurs de support n'appartiennent pas à la classe à forte probabilité car ils sont soit les plus proches soit du mauvais côté de l'hyperplan. La valeur que vous obtenez à partir de libsvm n'a rien à voir avec le dans la fonction de décision. C'est plutôt la sortie de la fonction de décision (et devrait donc être correctement appelée ). Puisque oùααjeSVαjek(X,Xje)+byy=jeSVαjek(X,Xje)+b=w,ϕ(X)H+bw vit dans l'espace Hilbert du noyau reproducteur, est proportionnel à la distance signée de l'hyperplan. Ce serait si vous divisez par la norme de , qui en termes de noyau est .ywwH=je,jSVαjeαjk(Xje,Xj)

fabee
la source
thnx pour votre explication ... lira le document
Amit