Je voudrais former un SVM pour classer les cas (TRUE / FALSE) sur la base de 20 attributs. Je sais que certains de ces attributs sont fortement corrélés. Par conséquent, ma question est la suivante: SVM est-il sensible à la corrélation ou à la redondance entre les fonctionnalités? Une référence?
svm
multicollinearity
kernel-trick
user7064
la source
la source
Réponses:
Noyau linéaire: L'effet ici est similaire à celui de la multicolinéarité dans la régression linéaire. Votre modèle appris peut ne pas être particulièrement stable face à de petites variations dans l'ensemble d'entraînement, car différents vecteurs de poids auront des sorties similaires. Les prédictions des ensembles d'entraînement, cependant, seront assez stables, et il en sera de même pour les tests s'ils proviennent de la même distribution.
Noyau RBF: Le noyau RBF ne regarde que les distances entre les points de données. Ainsi, imaginez que vous avez en fait 11 attributs, mais l'un d'eux est répété 10 fois (un cas assez extrême). Cet attribut répété contribuera alors 10 fois plus à la distance que tout autre attribut, et le modèle appris sera probablement beaucoup plus impacté par cette caractéristique.
Une façon simple d'actualiser les corrélations avec un noyau RBF est d'utiliser la distance de Mahalanobis: , où est un estimation de la matrice de covariance de l'échantillon. De manière équivalente, mappez tous vos vecteurs à puis utilisez le noyau RBF régulier, où est tel que , par exemple la décomposition Cholesky de . SxCxCS - 1 =CTCS - 1d(x,y)=(x−y)TS−1(x−y)−−−−−−−−−−−−−−−√ S x Cx C S−1=CTC S−1
la source