Je souhaite essayer d'utiliser les machines à vecteurs de support (SVM) sur mon jeu de données. Avant d'essayer le problème, j'ai été averti que les SVM ne fonctionnaient pas bien sur des données extrêmement déséquilibrées. Dans mon cas, je peux avoir jusqu'à 95-98% 0 et 2-5% 1.
J'ai essayé de trouver des ressources qui parlaient de l'utilisation de SVM sur des données éparses / déséquilibrées, mais tout ce que j'ai pu trouver était des «sparseSVM» (qui utilisent une petite quantité de vecteurs de support).
J'espérais que quelqu'un pourrait expliquer brièvement:
- Dans quelle mesure SVM devrait-il faire avec un tel ensemble de données
- Le cas échéant, les modifications doivent être apportées à l'algorithme SVM
- Quelles ressources / documents en discutent
la source
Les SVM fonctionnent bien sur des données éparses et déséquilibrées. Le SVM pondéré en fonction de la classe est conçu pour traiter les données déséquilibrées en affectant des pénalités de classification plus élevées aux instances de formation de la classe minoritaire.
la source
Dans le cas de données rares comme celle-ci, SVM fonctionnera bien.
Comme indiqué par @Bitwise, vous ne devez pas utiliser la précision pour mesurer les performances de l'algorithme.
Au lieu de cela, vous devez calculer la précision, le rappel et le score F de l'algorithme.
la source