Régularisation du collecteur à l'aide du graphe laplacien dans SVM

J'essaie d'implémenter la régularisation du manifold dans les machines à vecteurs de support (SVM) dans Matlab. Je suis les instructions du document de Belkin et al. (2006), il y a l'équation:

$f^{*} = \text{argmin}_{f \in H_k}\sum_{i=1}^{l}V\left(x_i,y_i,f\right)+\gamma_{A}\left\| f \right\|_{A}^{2}+\gamma_{I}\left\| f \right\|_{I}^{2}$

où V est une fonction de perte et $\gamma_A$ est le poids de la norme de la fonction dans la RHKS (ou norme ambiante), la force une condition de lissage sur les solutions possibles, et $\gamma_I$ est le poids de la norme de la fonction dans le collecteur de faible dimension (ou norme intrinsèque), qui applique un lissage le long du M. échantillonné. Le régularisateur ambiant rend le problème bien posé, et sa présence peut être vraiment utile d'un point de vue pratique lorsque l'hypothèse du collecteur se maintient à un degré moindre .

Il a été montré dans Belkin et al. (2006) que $f^*$ admet une expansion en termes de $n$ points de S, $f^*(x)=\sum_{i=1}^{n}\alpha_i^*k(x_i,x)$ La fonction de décision qui fait la distinction entre la classe +1 et -1 est $y(x)=sign(f^*(x))$ .

Le problème ici est que j'essaie de former SVM à l'aide de LIBSVM dans MATLAB mais je ne veux pas modifier le code d'origine, j'ai donc trouvé la version précalculée de LIBSVM qui, au lieu de prendre les données d'entrée et les groupes de sortie comme paramètres , obtient la matrice Kernal calculée et les groupes de sortie et entraîne le modèle SVM. J'essaie de le nourrir avec la matrice de noyau régularisée (Gram Matrix) et je laisse le reste.

J'ai essayé de trouver la formule qui régularise le Kernal et je suis arrivé à ceci: Définir comme la matrice d'identité avec la même dimension que la matrice du noyau, $I$ $K$

$G=\frac{2\gamma_AI + 2\gamma_ILK}{I}$

$Gram = KG$

Dans laquelle est la matrice du graphe laplacien, est la matrice du noyau et est la matrice d'identité. Et est calculée en utilisant la multiplication interne de deux matrices et . $L$ $K$ $I$ $Gram$ $K$ $G$

Y a-t-il quelqu'un qui peut m'aider à comprendre comment cela est calculé?

machine-learning svm regularization Moh
la source

Qu'avez-vous fini par faire?

Sveltely

@Sveltely Nothing

Moh

Réponses:

~~Bien que je ne l'ai pas testé~~ , en lisant l'article, le problème d'optimisation, à la fois pour SVM et LapSVM , est donné comme suit :

β^{*} = max_{β \in R^{l}} \sum_{i = 1}^{l} β_{i} - \frac{1}{2} β^{T} Q β

$\beta^*=\max_{\beta\in\mathbb R^l} \sum_{i = 1}^{l}\beta_i - {1\over 2}\beta^TQ\beta$ sous réserve de:

\sum_{i = 1}^{l} β_{i} y_{i} = 0 0 \leq β_{i} \leq \frac{1}{l}, with i = 1, \dots, l

$\sum_{i = 1}^{l}\beta_iy_i = 0\\ 0 \le \beta_i \le {1\over l}\text{, with }i=1,\dots,l$

Pour SVM :

Q_{SVM} = Y (\frac{K}{2 γ}) Y α_{SVM}^{*} = \frac{Y β^{*}}{2 γ}

$Q_{\text{SVM}} = Y\left(K \over 2\gamma\right)Y\\ \alpha^*_{\text{SVM}}={Y\beta^* \over 2\gamma}$

Alors que pour LapSVM, nous avons les éléments suivants (parenthèses ajoutées pour rendre la relation plus claire):

Q_{LapSVM} = Y (J K {(2 γ_{A} I + 2 \frac{γ_{I}}{(l + u)^{2}} L K)}^{- 1} J^{T}) Y α_{LapSVM}^{*} = {(2 γ_{A} I + 2 \frac{γ_{I}}{(l + u)^{2}} L K)}^{- 1} J^{T} Y β^{*}

$Q_{\text{LapSVM}} = Y\left( JK \left(2\gamma_AI+2\frac{\gamma_I}{(l+u)^2}LK\right)^{-1} J^T\right)Y\\ \alpha^*_{\text{LapSVM}}= \left(2\gamma_AI+2\frac{\gamma_I}{(l+u)^2}LK\right)^{-1}J^TY\beta^*$

Nous pouvons définir si:

Q_{SVM*} \equiv Q_{LapSVM}

$Q_{\text{SVM*}} \equiv Q_{\text{LapSVM}}$

{\begin{matrix} γ_{SVM*} = 1 / 2 \\ K_{SVM*} = J K_{LapSVM} {(2 γ_{A} I + 2 \frac{γ_{I}}{(l + u)^{2}} L K_{LapSVM})}^{- 1} J^{T} \end{matrix}

$\left\{\begin{matrix} \gamma_{\text{SVM*}} = 1/2 \\ K_{\text{SVM*}}=JK_{\text{LapSVM}}\left(2\gamma_AI+2\frac{\gamma_I}{(l+u)^2}LK_{\text{LapSVM}}\right)^{-1}J^T \end{matrix}\right.$

Dernier:

α_{LapSVM}^{*} = K_{LapSVM} {(2 γ_{A} I + 2 \frac{γ_{I}}{(l + u)^{2}} L K_{LapSVM})}^{- 1} J^{T} α_{SVM*}^{*}

$\alpha^*_{\text{LapSVM}}= K_{\text{LapSVM}}\left(2\gamma_AI+2\frac{\gamma_I}{(l+u)^2}LK_{\text{LapSVM}}\right)^{-1}J^T \alpha^*_{\text{SVM*}}$

Je peux confirmer que cela fonctionne. Voir cet exemple avec un noyau gaussien et comment la classe virginicacommence à se glisser dans les données non étiquetées lorsque par rapport à , qui est le SVM standard. $\gamma_I = 2500$ $\gamma_I = 0$

Pyromane
la source