Pourquoi les multiplicateurs de Lagrange sont-ils rares pour les SVM?

J'ai lu que pour le SVM Maximal Margin Classifier, après avoir résolu le double problème, la plupart des multiplicateurs de décalage se révèlent être des zéros. Seuls ceux correspondant aux vecteurs supports se révèlent positifs.

Pourquoi donc?

svm lagrange-multipliers Michael Litvin
la source

L'article de Wikipedia sur Support Vector Machines répond à cela en soulignant que les multiplicateurs de Lagrange non nuls correspondent à des points sur la marge, dont il y aurait normalement très peu.

whuber

Réponses:

Les multiplicateurs de Lagrange dans le contexte des SVM sont généralement notés $\alpha_i$ . Le fait que l'on observe souvent que la plupart $\alpha_i=0$ est une conséquence directe des conditions de double complémentarité de Karush-Kuhn-Tucker (KKT) :

Depuis $y_i(\mathbf{w}^T\mathbf{x}_i+b) = 1$ ssi $\mathbf{x}_i$ est sur la frontière de décision SVM, c'est à dire est un vecteur de support en supposant $\mathbf{x}_i$ est dans l'ensemble de formation, et dans la plupart des cas, peu de vecteurs de formation sont des vecteurs de support, comme le soulignent les commentaires, cela signifie que la plupart $\alpha_i$ sont 0 ou $C$ .

Les notes de cours CS229 d'Andrew Ng sur les SVM présentent les conditions de double complémentarité Karush-Kuhn-Tucker (KKT):

Notez que nous pouvons créer un cas où tous les vecteurs de l'ensemble de formation sont des vecteurs de support: par exemple, voir cette question de machine de vecteur de support .

Franck Dernoncourt
la source