J'ai donc joué avec les SVM et je me demande si c'est une bonne chose à faire:
J'ai un ensemble de fonctionnalités continues (0 à 1) et un ensemble de fonctionnalités catégorielles que j'ai converties en variables factices. Dans ce cas particulier, j'encode la date de la mesure dans une variable fictive:
Il y a 3 périodes sur lesquelles j'ai des données et je leur ai réservé 3 numéros de fonction:
20: 21: 22:
Ainsi, en fonction de la période d'où proviennent les données, différentes fonctionnalités se verront attribuer 1; les autres obtiendront 0.
Le SVM fonctionnera-t-il correctement avec ceci ou c'est une mauvaise chose à faire?
J'utilise SVMLight et un noyau linéaire.
Réponses:
Les SVM géreront à la fois les variables binaires et continues tant que vous effectuez un prétraitement: toutes les fonctionnalités doivent être mises à l'échelle ou normalisées. Après cette étape, du point de vue des algorithmes, peu importe si les fonctionnalités sont continues ou binaires: pour les binaires, il voit des échantillons qui sont soit "éloignés", soit très similaires; pour continu, il y a aussi les valeurs intermédiaires. Le noyau n'a pas d'importance en ce qui concerne le type de variables.
la source
Réplication de ma réponse depuis http://www.quora.com/Machine-Learning/What-are-good-ways-to-handle-discrete-and-continuous-inputs-together/answer/Arun-Iyer-1
Maintenant, vous pouvez représenter toutes les fonctionnalités dans un seul vecteur que nous pouvons supposer incorporées dans et commencer à utiliser des packages standard pour la classification / régression, etc.Rn
la source