J'ai un jeu de données comme
+--------+------+-------------------+
| income | year | use |
+--------+------+-------------------+
| 46328 | 1989 | COMMERCIAL EXEMPT |
| 75469 | 1998 | CONDOMINIUM |
| 49250 | 1950 | SINGLE FAMILY |
| 82354 | 2001 | SINGLE FAMILY |
| 88281 | 1985 | SHOP & HOUSE |
+--------+------+-------------------+
Je l'intègre dans un espace vectoriel au format LIBSVM
+1 1:46328 2:1989 3:1
-1 1:75469 2:1998 4:1
+1 1:49250 2:1950 5:1
-1 1:82354 2:2001 5:1
+1 1:88281 2:1985 6:1
Indices de fonctionnalités:
- 1 est "revenu"
- 2 est "année"
- 3 est "utiliser / EXEMPT COMMERCIAL"
- 4 est "utiliser / CONDOMINIUM"
- 5 est "utiliser / FAMILLE UNIQUE"
- 6 est "utiliser / SHOP & HOUSE"
Est-il acceptable de former une machine à vecteurs de support (SVM) avec un mélange de données continues (année, revenu) et catégoriques (utilisation) comme celle-ci?
categorical-data
svm
mixed-type-data
Seamus Abshere
la source
la source
Réponses:
Oui! Mais peut-être pas comme vous l'entendez. Dans mes recherches, je crée fréquemment des caractéristiques catégorielles à partir de valeurs à valeur continue en utilisant un algorithme comme le partitionnement récursif . J'utilise généralement cette approche avec l' implémentation SVMLight des machines à vecteurs de support, mais je l'ai également utilisée avec LibSVM. Vous devrez vous assurer d'affecter vos entités catégorielles catégorisées à un endroit spécifique de votre vecteur d'entités lors de la formation et de la classification, sinon votre modèle va finir par se mélanger.
Edit: c'est-à-dire que lorsque j'ai fait cela, j'affecte les n premiers éléments du vecteur aux valeurs binaires associées à la sortie du partitionnement récursif. Dans la modélisation d'entités binaires, vous n'avez qu'un vecteur géant de 0 et de 1, donc tout est identique pour le modèle, sauf si vous indiquez explicitement où se trouvent différentes entités. C'est probablement trop spécifique, car j'imagine que la plupart des implémentations SVM le feront de leur propre chef, mais, si vous aimez programmer le vôtre, cela pourrait être quelque chose à penser!
la source