Pourquoi l'augmentation du nombre de fonctionnalités réduit-elle les performances?

12

J'essaie de comprendre pourquoi l'augmentation du nombre de fonctionnalités pourrait réduire les performances. J'utilise actuellement un classificateur LDA qui fonctionne mieux de manière bivariée parmi certaines fonctionnalités, mais pire quand on regarde plus de fonctionnalités. Ma précision de classification est effectuée à l'aide d'un xval stratifié 10 fois.

Existe-t-il un cas simple où un classifieur fonctionnerait mieux univariablement que bivariement pour acquérir une intuition quelque peu physique ou spatiale de ce qui se passe dans ces dimensions supérieures?

dvreed77
la source
8
En guise de commentaire rapide, l'ajout de prédicteurs non pertinents peut dégrader les performances des nouvelles données - une variance accrue de la prédiction (surajustement). En effet, vous finissez par vous adapter au bruit et diluez le "vrai signal".
B_Miner

Réponses:

9

Voir " Un problème de dimensionnalité: un exemple simple " - un article très court et très ancien de GV Trunk. Il considère un problème à deux classes, avec des distributions conditionnelles de classe gaussiennes où les caractéristiques sont toutes pertinentes mais avec une pertinence décroissante. Il montre que le taux d'erreur d'un classifieur formé sur un échantillon fini converge vers 0,5, alors que l'erreur de Bayes s'approche de 0, à mesure que le nombre de traits augmente.

Innuo
la source
(+1) C'est une jolie petite référence.
Cardinal
2

Ceci est appelé " Malédiction de Dimensionnalité ". Je ne sais pas s'il y a une raison spécifique pour LDA, mais en général, avoir beaucoup de dimension sur les résultats des vecteurs de caractéristiques avec le besoin de limites de décision plus complexes. Le fait d'avoir des limites complexes s'accompagne également d'une question "Dans quelle mesure?" car nous considérons également le sur-ajustement. Autre point, avec des dimensions supplémentaires, la complexité de l'algorithme d'apprentissage augmente également. Ainsi, travailler avec un algorithme d'apprentissage relativement lent avec un vecteur de fonctionnalité énorme aggrave votre événement professionnel. En plus de la dimension, vous pourriez avoir une possibilité croissante d'avoir des fonctionnalités corrélées dans lesquelles ce n'est pas bon pour de nombreux algorithmes d'apprentissage comme Neural Net ou d'autres.

Vous pouvez compter d'autres raisons qui sont sous "Curse Of Dimensionality" mais le fait est d'avoir un nombre suffisant d'instances avec un vecteur d'entités concis qui est éliminé par certaines routines de sélection d'entités.

erogol
la source