Dans un petit problème de classification de texte que je regardais, Naive Bayes a présenté une performance similaire ou supérieure à un SVM et j'étais très confus.
Je me demandais quels facteurs décident du triomphe d'un algorithme sur l'autre. Y a-t-il des situations où il est inutile d'utiliser Naive Bayes sur SVM? Quelqu'un peut-il faire la lumière là-dessus?
Réponses:
Il n'y a pas de réponse unique quant à la meilleure méthode de classification pour un ensemble de données donné . Différents types de classificateurs doivent toujours être considérés pour une étude comparative sur un ensemble de données donné. Compte tenu des propriétés de l'ensemble de données, vous pouvez avoir des indices qui peuvent donner la préférence à certaines méthodes. Cependant, il serait toujours conseillé d'expérimenter avec tous, si possible.
Naive Bayes Classifier (NBC) et Support Vector Machine (SVM) ont différentes options, y compris le choix de la fonction du noyau pour chacun. Ils sont tous deux sensibles à l'optimisation des paramètres (c.-à-d. Que la sélection de paramètres différents peut modifier considérablement leur sortie) . Donc, si vous avez un résultat montrant que NBC fonctionne mieux que SVM. Cela n'est vrai que pour les paramètres sélectionnés. Cependant, pour une autre sélection de paramètres, vous pourriez trouver que SVM fonctionne mieux.
En général, si l'hypothèse d'indépendance du NBC est satisfaite par les variables de votre ensemble de données et que le degré de chevauchement des classes est faible (c.-à-d. La limite de décision linéaire potentielle), le NBC devrait réussir. Pour certains jeux de données, avec l'optimisation à l'aide de la sélection de fonctionnalités d'encapsuleur, par exemple, NBC peut vaincre d'autres classificateurs. Même s'il atteint des performances comparables, NBC sera plus souhaitable en raison de sa vitesse élevée.
En résumé, nous ne devrions pas préférer une méthode de classification si elle surpasse les autres dans un contexte car elle pourrait échouer gravement dans un autre. ( C'EST NORMAL DANS LES PROBLÈMES D'EXPLOITATION DE DONNÉES ).
la source