RBF gaussien vs noyau gaussien

La seule vraie différence réside dans la régularisation qui est appliquée. Un réseau RBF régularisé utilise généralement une pénalité basée sur la norme quadratique des poids. Pour la version du noyau, la pénalité est généralement sur la norme quadratique des poids du modèle linéaire implicitement construit dans l'espace caractéristique induit par le noyau. La principale différence pratique que cela fait est que la pénalité pour le réseau RBF dépend des centres du réseau RBF (et donc de l'échantillon de données utilisé) tandis que pour le noyau RBF, l'espace des caractéristiques induites est le même quel que soit l'échantillon de données, donc la pénalité est une pénalité sur la fonction du modèle, plutôt que sur son paramétrage .

En d'autres termes, pour les deux modèles, nous avons

$f(\vec{x}') = \sum_{i=1}^\ell \alpha_i \mathcal{K}(\vec{x}_i, \vec{x}')$

Pour l'approche du réseau RBF, le critère de formation est

$L = \sum_{i=1}^\ell (y_i - f(\vec{x}_i))^2 + \lambda \|\alpha\|^2$

Pour la méthode du noyau RBF, nous avons que $\mathcal{K}(\vec{x},\vec{x}') = \phi(\vec{x})\cdot\phi(\vec{x}')$ et $\vec{w} = \sum_{i=1}^\ell \alpha_i\phi(\vec{x}_i)$ . Cela signifie qu'une pénalité de norme quadratique sur les poids du modèle dans l'espace d'entité induit, $\vec{w}$ peut être écrite en termes de paramètres doubles, $\vec{\alpha}$ comme

$\|\vec{w}\|^2 = \vec{\alpha}^T\matrix{K}\vec{\alpha},$

où est le mélange d'évaluations par paire du noyau pour tous les modèles d'apprentissage. Le critère de formation est alors $\matrix{K}$

$L = \sum_{i=1}^\ell (y_i - f(\vec{x}_i))^2 + \lambda \vec{\alpha}^T\matrix{K}\vec{\alpha}$ .

La seule différence entre les deux modèles est la dans le terme de régularisation. $\matrix{K}$

Le principal avantage théorique de l'approche du noyau est qu'elle vous permet d'interpréter un modèle non linéaire comme un modèle linéaire suivant une transformation non linéaire fixe qui ne dépend pas de l'échantillon de données. Ainsi, toute théorie d'apprentissage statistique qui existe pour les modèles linéaires est automatiquement transférée vers la version non linéaire. Cependant, tout cela tombe en panne dès que vous essayez d'ajuster les paramètres du noyau, à quel point nous sommes à peu près au même point théoriquement parlant que nous l'étions avec les réseaux de neurones RBF (et MLP). L'avantage théorique n'est donc peut-être pas aussi important que nous le souhaiterions.

Est-il susceptible de faire une réelle différence en termes de performances? Probablement pas beaucoup. Les théorèmes "pas de déjeuner gratuit" suggèrent qu'il n'y a pas de supériorité a priori d'aucun algorithme sur tous les autres, et la différence de régularisation est assez subtile, donc en cas de doute, essayez les deux et choisissez le meilleur selon, par exemple, la validation croisée.

Dikran Marsupial
la source

@CagdasOzgenc Oui, pour le RBF, le régularisateur est plutôt que pour la machine du noyau. Ils deviendraient plus semblables que la largeur de la fonction de base approche zéro approcherait . Je pense que c'est essentiellement parce que explique la corrélation entre les fonctions de base.

‖ \vec{α} ‖^{2} = {\vec{α}}^{T} \begin{matrix} I \end{matrix} \vec{α}

$\|\vec{\alpha}\|^2 = \vec{\alpha}^T\matrix{I}\vec{\alpha}$

{\vec{α}}^{T} \begin{matrix} K \end{matrix} \vec{α}

$\vec{\alpha}^T\matrix{K}\vec{\alpha}$

K

$K$

I

$I$

K

$K$

Dikran Marsupial

@CagdasOzgenc Selon moi, le dans le régularisateur pondère la pénalisation différemment pour chaque vecteur de base, et la pénalité dépend de la sélection des autres vecteurs de base. Ce poids dépend de leurs corrélations, donc si vous choisissez un autre échantillon, les poids changent pour compenser. L'autre façon de voir les choses est que le modèle est défini dans un espace caractéristique déterminé par , qui ne dépend pas du choix des vecteurs de base (à condition qu'ils s'étendent sur l'espace contenant les données).

K

$K$

ϕ (x)

$\phi(x)$

Dikran Marsupial

@CagdasOzgenc Bien sûr, nous pouvons transformer l'espace des fonctions de base par une décomposition propre de et retrouver un régularisateur de style (en effet, c'est une astuce utile pour optimiser le paramètre de régularisation - doi.org/10.1016/j.neunet.2007.05.005 ). Cependant, cette transformation élimine la dépendance du choix d'origine de la fonction de base. Pour que les deux choses soient égales, il faudrait , ce qui n'est généralement pas vrai (surtout pas pour le noyau RBF).

K

$K$

‖ {\vec{α}}^{'} ‖^{2}

$\|\vec{\alpha}'\|^2$

{\vec{α}}^{T} \begin{matrix} K \end{matrix} \vec{α} = μ {\vec{α}}^{T} \begin{matrix} I \end{matrix} \vec{α}

$\vec{\alpha}^T\matrix{K}\vec{\alpha} = \mu\vec{\alpha}^T\matrix{I}\vec{\alpha}$

Dikran Marsupial

Je vous remercie. Je vais y réfléchir et je vous répondrai. Pour le moment, il semble que je ne sois pas à votre niveau de compréhension. Je dois réfléchir davantage :).

Cagdas Ozgenc

@CagdasOzgenc pas de problème, la plupart des textes standards l'expliquent à travers les fonctions propres de la fonction noyau, ce qui me fait aussi mal au cerveau! ; o)

Dikran Marsupial

RBF gaussien vs noyau gaussien

Réponses: