Quels sont les avantages des méthodes d'apprentissage du noyau multiple (MKL)?

8

Les méthodes d'apprentissage à noyaux multiples visent à construire un modèle de noyau où le noyau est une combinaison linéaire de noyaux à base fixe. L'apprentissage du noyau consiste alors à apprendre les coefficients de pondération pour chaque noyau de base, plutôt que d'optimiser les paramètres du noyau d'un seul noyau.

Les inconvénients de l'apprentissage multi-noyaux semblent être qu'ils sont moins interprétables et moins coûteux en calcul (pour évaluer la sortie du modèle, vous devez évaluer tous les noyaux de base). Donc, si des performances similaires peuvent être obtenues en optimisant simplement un seul noyau, quels sont les avantages de MKL?

Dikran Marsupial
la source
Que signifie "optimiser les paramètres d'un seul noyau"? nous paramétrons la matrice gramme de k (x, y)? ou de la cartographie des fonctionnalités Phi (x)? Existe-t-il même un moyen systématique de procéder? Ou est-ce que c'est comme exécuter la validation croisée sur un tas de noyaux puis choisir le meilleur?
Geralt de Rivia
@GeraltofRivia Je veux juste dire régler les hyper-paramètres d'une fonction de noyau de base (par exemple le paramètre d'échelle d'un noyau RBF). Un noyau RBF est étonnamment difficile à battre en termes de performances de généralisation et une somme pondérée de noyaux (qui peut inclure le RBF) semble plutôt moins interprétable, du moins pour moi.
Dikran Marsupial

Réponses:

14

Il y a deux avantages (ou plutôt deux cas d'utilisation):

  1. Pour chaque application de SVM, un utilisateur doit choisir le noyau à utiliser et parfois même concevoir ses propres matrices de noyau. Est-il possible d'alléger le choix des noyaux ou des conceptions de noyau spécialisées? MKL était un pas dans cette direction.

  2. Le deuxième cas à mon humble avis est de loin un cas plus convaincant. Considérez que votre entrée de données est une donnée vidéo + cc. La représentation des fonctionnalités de chaque vidéo se compose de fonctionnalités vidéo, de fonctionnalités audio et de fonctionnalités de texte. Ces données sont appelées données multimodales. Chaque ensemble de ces fonctionnalités peut nécessiter une notion différente de similitude (un noyau différent). Au lieu de construire un noyau spécialisé pour de telles applications, est-il possible de simplement définir le noyau pour chacun de ces modes et de les combiner linéairement?

TenaliRaman
la source
1
+1 Cependant, je ne suis pas convaincu que [1] soit plus facile à utiliser MKL que d'avoir simplement une combinaison linéaire de noyaux et de choisir les facteurs de pondération via, par exemple, la validation croisée. Cela augmente également la probabilité de sur-ajustement car il y a maintenant plus de paramètres à estimer. Comme vous le dites, [2] est beaucoup plus convaincant.
Dikran Marsupial
2
Vous serez intéressés par cet article de McFee et Lanckriet dans JMLR 2011 - jmlr.csail.mit.edu/papers/v12/mcfee11a.html
TenaliRaman