J'essaie de classer les messages en différentes catégories à l'aide d'un SVM. J'ai compilé une liste de mots / symboles souhaitables à partir de l'ensemble de formation.
Pour chaque vecteur, qui représente un message, je mets la ligne correspondante à 1
si le mot est présent:
"corpus" est: [mary, little, lamb, star, twinkle]
premier message: "mary avait un petit agneau" -> [1 1 1 0 0]
deuxième message: "petite étoile scintillante" -> [0 1 0 1 1]
Je pense que c'est une configuration assez courante avec SVM, mais ma question est, avec des milliers de mots dans l'ensemble, que se passe-t-il s'il n'y a que 1-2 mots par message qui apparaissent réellement? La dépendance linéaire de mon ensemble de vecteurs d'apprentissage va-t-elle affecter négativement la capacité de l'algorithme à converger?
la source
flexmix
- cependant, j'ai "Learn R" sur mon calendrier depuis quelques années maintenant!Réponses:
La rareté et la dépendance linéaire sont deux choses différentes. La dépendance linéaire implique que certains des vecteurs de caractéristiques sont de simples multiples d'autres vecteurs de caractéristiques (ou les mêmes appliqués aux exemples). Dans la configuration que vous avez décrite, je pense qu'une dépendance linéaire est peu probable (cela implique que deux termes ont la même fréquence (ou des multiples de celle-ci) dans tous les documents). Le simple fait d'avoir des fonctionnalités clairsemées ne présente aucun problème pour le SVM. Une façon de voir cela est que vous pourriez faire une rotation aléatoire des axes de coordonnées, ce qui laisserait le problème inchangé et donnerait la même solution, mais rendrait les données complètement non clairsemées (c'est en partie comment fonctionnent les projections aléatoires ).
Il semble également que vous parliez du SVM dans le primal . Notez que si vous utilisez le noyau SVM, ce n'est pas parce que vous avez un jeu de données clairsemé que la matrice du noyau sera clairsemée. Il peut cependant être de bas rang. Dans ce cas, vous pouvez réellement profiter de ce fait pour une formation plus efficace (voir par exemple une formation SVM efficace utilisant des représentations de noyau de bas rang ).
la source