Y a-t-il des applications où SVM est encore supérieur?

10

L'algorithme SVM est assez ancien - il a été développé dans les années 1960, mais était extrêmement populaire dans les années 1990 et 2000. C'est une partie classique (et assez belle) des cours d'apprentissage automatique.

Aujourd'hui, il semble que dans le traitement des médias (images, son, etc.) les réseaux de neurones dominent complètement, tandis que dans d'autres domaines, le Gradient Boosting a des positions très fortes.

De plus, lors de récents concours de données, je n'observe aucune solution basée sur SVM.

Je recherche des exemples d'application où SVM donne toujours des résultats de pointe (à partir de 2016).

Mise à jour: je voudrais avoir un exemple que je peux donner par exemple aux étudiants / collègues lors de l'explication de la SVM afin qu'elle ne ressemble pas à une approche purement théorique ou obsolète.

Alleo
la source
3
Supérieur dans quel sens? Une mesure de performance? La formation d'un réseau neuronal profond nécessite beaucoup de temps d'ordinateur, mais je peux entraîner un SVM réparable sur mon ordinateur portable.
Sycorax dit Réintégrer Monica le
@ user777 Je veux dire la métrique de classification / régression appropriée pour le domaine d'application, bien sûr. Le problème de la complexité de calcul pour DL est important, mais cela sort un peu de la portée de cette question.
Alleo

Réponses:

11

Selon l'article, avons-nous besoin de centaines de classificateurs pour résoudre les problèmes de classification du monde réel? SVM avec Random Forest et Gradient Booting Machines sont parmi les algorithmes de classification les plus performants pour un large ensemble de plus de 120 jeux de données (en utilisant la précision comme métrique).

J'ai répété leurs expériences avec quelques modifications et ces trois classificateurs fonctionnent mieux que les autres, mais comme le théorème du déjeuner gratuit dit qu'il y a toujours un problème où un autre algorithme fonctionne mieux que ces trois.

Alors oui, je dirais que SVM (avec le noyau gaussien - c'est ce que j'ai utilisé) est toujours un algorithme pertinent pour les jeux de données non liés aux médias.

Jacques Wainer
la source
Salut, merci pour la réponse! J'ai vu cette étude intéressante. Autant que je sache, l'idée était de voir combien de classifieur donne sans aucun réglage sérieux (alors que l'analyste de données devrait effectuer le réglage IMO). Une étude régionale serait plus intéressante.
Alleo
1
Je me souviens que Delgado et tous n'ont pas effectué une recherche très détaillée des meilleurs hyperparamètres, mais s'ils ont effectué une recherche. La question (pour laquelle je n'ai pas de réponse) est de savoir si une recherche plus fine des meilleurs hypeparamètres aboutirait à des résultats différents. Si cela est vrai, cela signifierait que les algorithmes concurrents de SVM ont en général un pic très net de précision pour des hyperparamètres particuliers, ce qui, à mon avis, est un facteur négatif pour l'algorithme.
Jacques Wainer
Un autre commentaire mineur est que les ensembles de données UCI (utilisés pour les tests) sont généralement assez petits. Je me demande si cela pourrait être l'explication des mauvais résultats du boost? La plupart des défis kaggle (avec beaucoup de données) démontrent les performances supérieures du GB.
Alleo
Je suis d'accord que les ensembles de données sont petits. Pour les ensembles de données plus importants, j'utilise Random Forests en ce moment - je commencerai à utiliser GBM dès que je serai plus à l'aise avec les hyperparamètres - je ne sais pas à quel point le GBM est sensible pour eux.
Jacques Wainer