J'ai exécuté PCA sur 17 variables quantitatives afin d'obtenir un plus petit ensemble de variables, c'est-à-dire les principaux composants, à utiliser dans l'apprentissage automatique supervisé pour classer les instances en deux classes. Après PCA, PC1 représente 31% de la variance des données, PC2 17%, PC3 10%, PC4 8%, PC5 7% et PC6 6%.
Cependant, quand je regarde les différences moyennes entre les PC entre les deux classes, étonnamment, PC1 n'est pas un bon discriminateur entre les deux classes. Les PC restants sont de bons discriminateurs. De plus, PC1 devient non pertinent lorsqu'il est utilisé dans un arbre de décision, ce qui signifie qu'après l'élagage de l'arbre, il n'est même pas présent dans l'arbre. L'arbre se compose de PC2-PC6.
Y a-t-il une explication à ce phénomène? Peut-il y avoir quelque chose de mal avec les variables dérivées?
Réponses:
Cela peut également se produire si les variables ne sont pas mises à l'échelle pour avoir une variance d'unité avant d'effectuer l'ACP. Par exemple, pour ces données (notez que l' échelle ne va que de à alors que va de à ):y - 0,5 1 X - 3 3
PC1 est approximativement et explique presque toute la variance, mais n'a pas de pouvoir discriminatoire, tandis que PC2 est et discrimine parfaitement entre les classes.X y
la source
prcomp(x, center=T, scale=T)
ce qui revient à faire (x-mean) / sd. Dans cet exemple, vous constaterez qu'aucun des deux composants principaux n'est un bon discriminateur entre les classes; cela ne fonctionne que s'ils sont tous deux utilisés ensemble.Je suppose que la réponse et l'exemple fournis par @Flounderer impliquent cela, mais je pense que cela vaut la peine de le préciser. L'analyse en composantes principales (ACP) est indifférente au label (classification). Il ne fait que transformer certaines données de haute dimension vers un autre espace dimensionnel. Cela peut aider dans les tentatives de classification en créant, par exemple, un ensemble de données plus facilement séparable par une méthode particulière. Cependant, ce n'est qu'un sous-produit (ou un effet secondaire) de l'ACP.
la source
Lorsque nous effectuons l'analyse des composants principaux, les composants principaux correspondent aux directions de variabilité maximale, ils ne garantissent pas une discrimination ou une séparation maximale entre les classes.
Ainsi, le 2e composant vous donne une bonne classification signifie que les données dans cette direction vous donnent une meilleure discrimination entre les classes. Lorsque vous effectuez une analyse discriminante linéaire (LDA), elle vous donne les meilleurs composants de direction orthogonale qui maximisent la distance inter-classe et minimisent la distance intra-classe.
Donc, si vous faites du LDA sur les données au lieu de PCA, l'un des tout premiers composants serait probablement plus proche de PC6 que de PC1. J'espère que cela t'aides.
la source