Lors de l'utilisation de la machine à vecteurs de support, existe-t-il des instructions sur le choix du noyau linéaire par rapport au noyau non linéaire, comme le RBF? J'ai déjà entendu dire que le noyau non linéaire avait tendance à ne pas bien fonctionner lorsque le nombre de fonctionnalités était important. Y a-t-il des références sur cette question?
machine-learning
classification
svm
references
kernel-trick
utilisateur3269
la source
la source
Réponses:
Habituellement, la décision consiste à utiliser un noyau linéaire ou un noyau RBF (ou gaussien). Il y a deux facteurs principaux à considérer:
Il a été démontré que le noyau linéaire est une version dégénérée de RBF . Le noyau linéaire n’est donc jamais plus précis qu’un noyau RBF correctement réglé. En citant le résumé de l'article que j'ai lié:
Une règle de base est brièvement décrite dans le guide pratique de la NTU pour la classification des vecteurs (Annexe C).
Votre conclusion est plus ou moins juste, mais l'argument est inversé. En pratique, le noyau linéaire a tendance à très bien fonctionner lorsque le nombre d'entités est grand (par exemple, il n'est pas nécessaire de mapper vers un espace d'entités dimensionnel encore plus grand). Un exemple typique est la classification de documents, avec des milliers de dimensions dans l’espace de saisie.
Dans ces cas, les noyaux non linéaires ne sont pas nécessairement plus précis que les noyaux linéaires. Cela signifie essentiellement que les noyaux non linéaires perdent leur attrait: ils ont besoin de beaucoup plus de ressources pour s'entraîner avec un gain de performance prédictif faible, voire nul, alors pourquoi s'embêter.
TL; DR
Toujours essayer d'abord linéaire, car il est beaucoup plus rapide de s'entraîner (AND test). Si la précision suffit, félicitez-vous pour un travail bien fait et passez au problème suivant. Sinon, essayez un noyau non linéaire.
la source
Andrew Ng donne une bonne explication de base dans cette vidéo qui commence à 14h46, bien que toute la vidéo mérite d'être visionnée.
Points clés
la source