J'ai quelques doutes quant à la compréhension intuitive des SVM. Supposons que nous ayons formé un modèle SVM pour la classification en utilisant un outil standard comme SVMLight ou LibSVM.
Lorsque nous utilisons ce modèle pour la prédiction sur les données de test, le modèle génère un fichier ayant des valeurs "alpha" pour chaque point de test. Si la valeur alpha est positive, le point de test appartient à la classe 1, sinon il appartient à la classe 2. Maintenant, peut-on dire qu'un point de test avec une valeur "alpha" supérieure appartient à la classe correspondante avec une probabilité "plus élevée"?
Similaire à la première question, lorsque nous avons un SVM formé. Les SV se trouvent très près de l'hyperplan. Cela signifie-t-il donc que les SV appartiennent à cette classe avec une forte probabilité? Pouvons-nous relier la probabilité d'un point appartenant à une classe à sa distance à "l'hyperplan"? La valeur "alpha" représente-t-elle la distance de "l'hyperplan"?
Merci pour votre contribution.
Réponses:
‖ w ‖ 2 2 w p ( w | ( y 1 , x 1 ) , . . . , ( Y m , x m ) ) α 1 / Z exp ( - ‖ w ‖ 2 2 ) ∏∑je∥ yje- ⟨ w , xje⟩ - b ∥22 ∥ w ∥22 w w Zp ( w | ( y1, x1) , . . . , ( ym, xm) ) ∝ 1 / Zexp( - ∥ w ∥22) ∏jeexp( ∥ yje- ⟨ w , xje⟩ - b ∥22) w Z s'assure qu'il se normalise). Vous obtenez la probabilité gaussienne de la fonction de perte en retournant son signe et en l'exponentiant. Cependant, si vous le faites avec la fonction de perte du SVM, la log-vraisemblance n'est pas un modèle probabiliste normalisable.
Il y a des tentatives pour transformer SVM en un. Le plus notable, qui est, je pense, également implémenté dans libsvm est:
John Platt: Sorties probabilistes pour les machines à vecteurs de support et comparaison avec les méthodes de vraisemblance régularisées (NIPS 1999): http://www.cs.colorado.edu/~mozer/Teaching/syllabi/6622/papers/Platt1999.pdf
Pour répondre plus précisément à votre question: L'idée dans les SVM est en effet que plus un vecteur de test est éloigné de l'hyperplan, plus il appartient à une certaine classe (sauf quand il est du mauvais côté bien sûr). En ce sens, les vecteurs de support n'appartiennent pas à la classe à forte probabilité car ils sont soit les plus proches soit du mauvais côté de l'hyperplan. La valeur que vous obtenez à partir de libsvm n'a rien à voir avec le dans la fonction de décision. C'est plutôt la sortie de la fonction de décision (et devrait donc être correctement appelée ). Puisque oùα α ∑i ∈ SVαjek ( x , xje) + b y y= ∑i ∈ SVαjek ( x , xje) + B = ⟨ w , φ ( x ) ⟩H+ b w vit dans l'espace Hilbert du noyau reproducteur, est proportionnel à la distance signée de l'hyperplan. Ce serait si vous divisez par la norme de , qui en termes de noyau est .y w ∥ w ∥H= ∑i , j ∈ SVαjeαjk ( xje, xj)-----------------√
la source