Régression logistique du noyau vs SVM

Comme chacun le sait, SVM peut utiliser la méthode du noyau pour projeter des points de données dans des espaces plus élevés, de manière à ce que les points puissent être séparés par un espace linéaire. Mais nous pouvons aussi utiliser la régression logistique pour choisir cette limite dans l’espace noyau, alors quels sont les avantages de la SVM? Puisque SVM utilise un modèle fragmenté dans lequel seuls ces vecteurs de support apportent des contributions lors de la prédiction, cela rend-il SVM plus rapide dans la prédiction?

svm FindBoat
la source

Les diapositives de Hastie sont ce que vous cherchez

Yibo Yang

Réponses:

KLR et SVM

La performance de classification est presque identique dans les deux cas.
KLR peut fournir des probabilités de classe alors que SVM est un classifieur déterministe.
KLR a une extension naturelle à la classification multi-classes alors que dans SVM, il existe de nombreuses façons de l’étendre à la classification multi-classes (et la question de savoir s’il existe une version qui possède des qualités manifestement supérieures aux autres) reste un domaine de recherche.
De manière surprenante ou non surprenante, KLR possède également des propriétés de marge optimales dont les SVM bénéficient (bien au moins dans la limite)!

En regardant ce qui précède, vous devriez utiliser une régression logistique du noyau. Cependant, les SVM ont certains avantages:

Le KLR est beaucoup plus coûteux en calcul que SVM - vs où est le nombre de vecteurs de support. $O(N^3)$ $O(N^2k)$ $k$
Le classifieur dans SVM est conçu de telle sorte qu'il est défini uniquement en termes de vecteurs de support, alors que dans KLR, il est défini sur tous les points et pas uniquement sur les vecteurs de support. Cela permet aux SVM de profiter d’accélérations naturelles (en termes d’écriture de code efficace) difficiles à atteindre pour KLR.

TenaliRaman
la source

+1 J'ajouterais simplement que si la complexité informatique est un problème, il n'est pas trop difficile de construire un modèle de régression logistique du noyau clairsemé en choisissant avec cupidité les vecteurs de base afin de minimiser la perte régularisée sur l'ensemble de formation ou d'autres approches. Voir les documents sur la "Machine à vecteur d'information" par exemple.

Dikran Marsupial

Aussi, assez souvent, si vous optimisez les paramètres de noyau et de régularisation d’un SVM, vous vous retrouvez avec un modèle où pratiquement toutes les données sont des vecteurs de support. La rareté des SVM est un heureux accident, ce n'est pas vraiment un bon argument de vente de la technique car il est généralement possible d'obtenir une plus grande épargne par d'autres moyens.

Dikran Marsupial

@DikranMarsupial Merci pour le pointeur sur Informative Vector Machine. Je connais certaines œuvres de Sparse KLR mais, à ce jour, aucune d'entre elles ne s'adapte bien aux grandes bases de données. Quoi qu'il en soit, la publication d'une bonne implémentation de KLR clairsemée, conviviale comme libSVM ou SVM Light, peut aller très loin dans son adoption. Toutes mes excuses si de telles implémentations existent déjà, mais je ne suis au courant d’aucune d’entre elles. (EDIT: Je pense que vous vouliez dire «machine à vecteurs d'importation» au lieu de «machine à vecteurs informative»?)

TenaliRaman

Si vous vous retrouvez avec tous les points de données en tant que vecteurs de support, vous êtes sur-ajustés. Cela se produit plusieurs fois avec RBF. En fait, l’une des choses fondamentales que j’ai apprise en tant qu’utilisateur de SVM est d’abord et avant tout de vérifier la fraction de points choisie comme vecteur de support. S'il s'agit de plus de 30% des données, je rejette carrément ce modèle.

TenaliRaman

Il n'est pas correct que tous les points de données en tant que SV signifient un sur-ajustement. Si la valeur de C est petite, il y a peu de pénalité pour les variables de jeu, alors vous pouvez avoir un classificateur très fade (qui fait beaucoup d'erreurs sur le jeu d'apprentissage) et la marge est si large que toutes les données sont des vecteurs de support. Rejeter les modèles non clairsemés n'est pas une bonne règle, car parfois le SVM présentant les meilleures performances de généralisation est non clairsemé. Le nombre de SV est une limite supérieure de l'erreur d'abandon, mais c'est souvent une limite très perdante!

Dikran Marsupial

Voici mon point de vue sur la question:

Les SVM sont une manière très élégante de faire la classification. Il y a une belle théorie, de belles maths, ils génèrent bien, et ils ne sont pas trop lents non plus. Essayez de les utiliser pour la régression cependant, et cela devient compliqué.

Voici une ressource sur la régression SVM. Remarquez les paramètres supplémentaires à modifier et la discussion approfondie sur les algorithmes d'optimisation.

La régression de processus gaussienne a beaucoup de choses mathématiques identiques et fonctionne très bien pour la régression. Encore une fois, c'est très élégant et ce n'est pas trop lent. Essayez de les utiliser pour la classification, et vous commencez à vous sentir mal.

Voici un chapitre du livre du GP sur la régression.
Voici un chapitre sur la classification, à des fins de comparaison. Notez que vous vous retrouvez avec des approximations compliquées ou une méthode itérative.

Une bonne chose à propos de l’utilisation des généralistes pour la classification, c’est que cela vous donne une distribution prédictive, plutôt qu’une simple classification oui / non.

Stumpy Joe Pete
la source

Les généralistes +1 constituent une bonne alternative au KLR (bien que le KLR donne souvent de meilleures performances, car la sélection de modèle basée sur des preuves peut mal tourner si la spécification du modèle est erronée) et la validation croisée est souvent préférable.

Dikran Marsupial

s'il vous plaît visitez http://www.stanford.edu/~hastie/Papers/svmtalk.pdf

Quelques conclusions: La performance de la classi ﬁ cation est très similaire. Possède des propriétés de marge optimales. Fournit des estimations des probabilités de classe. Celles-ci sont souvent plus utiles que les classi ﬁ cations. Généraliser naturellement à la classi ﬁ cation de classe M par la régression multi-logit par noyau.

Pockeystar
la source