Je comprends que PCA est utilisé pour la réduction de dimensionnalité afin de pouvoir tracer des jeux de données en 2D ou 3D. Mais j'ai également vu des gens appliquer l'ACP comme étape de prétraitement dans des scénarios de classification où ils appliquent l'ACP pour réduire le nombre de fonctionnalités, puis ils utilisent certains composants principaux (les vecteurs propres de la matrice de covariance) comme nouvelles fonctionnalités.
Mes questions:
Quels effets cela a-t-il sur les performances de classification?
Quand appliquer une telle étape de prétraitement?
J'ai un ensemble de données avec 10 entités sous forme de nombres réels et 600 entités binaires qui représentent des entités catégorielles, en utilisant un codage un-à-plusieurs pour les représenter. L'application de l'APC ici aurait-elle du sens et de meilleurs résultats?
ps si la question est trop large, je vous serais reconnaissant de fournir un document ou des didacticiels qui expliquent mieux les détails de l'utilisation de PCA de cette manière.
ps après avoir lu un peu, j'ai trouvé qu'il pourrait être préférable d'utiliser l'analyse sémantique latente pour réduire le nombre de fonctionnalités binaires pour les attributs catégoriels? Je ne touche donc pas aux fonctionnalités à valeur réelle, mais je prétraite uniquement les fonctionnalités binaires, puis je combine les fonctionnalités à valeur réelle avec les nouvelles fonctionnalités et je forme mon classificateur. Qu'est-ce que tu penses?