Le premier composant principal ne sépare pas les classes, contrairement aux autres PC; comment est-ce possible?

11

J'ai exécuté PCA sur 17 variables quantitatives afin d'obtenir un plus petit ensemble de variables, c'est-à-dire les principaux composants, à utiliser dans l'apprentissage automatique supervisé pour classer les instances en deux classes. Après PCA, PC1 représente 31% de la variance des données, PC2 17%, PC3 10%, PC4 8%, PC5 7% et PC6 6%.

Cependant, quand je regarde les différences moyennes entre les PC entre les deux classes, étonnamment, PC1 n'est pas un bon discriminateur entre les deux classes. Les PC restants sont de bons discriminateurs. De plus, PC1 devient non pertinent lorsqu'il est utilisé dans un arbre de décision, ce qui signifie qu'après l'élagage de l'arbre, il n'est même pas présent dans l'arbre. L'arbre se compose de PC2-PC6.

Y a-t-il une explication à ce phénomène? Peut-il y avoir quelque chose de mal avec les variables dérivées?

Frida
la source
5
Lisez cette question récente stats.stackexchange.com/q/79968/3277 avec un lien supplémentaire dedans. Étant donné que PCA ne connaît pas l'existence des classes, il ne garantit pas que l'un quelconque des PC sera vraiment de bons discriminateurs; d'autant plus que PC1 sera un bon discriminateur. Voir aussi deux images comme exemple ici .
ttnphns
2
Voir aussi Qu'est-ce qui peut faire que l'ACP aggrave les résultats d'un classificateur? , en particulier les chiffres de la réponse de @vqv.
amoeba

Réponses:

14

Cela peut également se produire si les variables ne sont pas mises à l'échelle pour avoir une variance d'unité avant d'effectuer l'ACP. Par exemple, pour ces données (notez que l' échelle ne va que de à alors que va de à ):y-0,51X-33

entrez la description de l'image ici

PC1 est approximativement et explique presque toute la variance, mais n'a pas de pouvoir discriminatoire, tandis que PC2 est et discrimine parfaitement entre les classes.Xy

Flet
la source
Salut, merci pour votre réponse! Comment procéder à la mise à l'échelle? (x-moyenne) / sd?
Frida
Oui, dans RI utilisé, prcomp(x, center=T, scale=T)ce qui revient à faire (x-mean) / sd. Dans cet exemple, vous constaterez qu'aucun des deux composants principaux n'est un bon discriminateur entre les classes; cela ne fonctionne que s'ils sont tous deux utilisés ensemble.
Flounderer
Je comprends que les PC sont complémentaires, mais y a-t-il une explication derrière cela? Pour être honnête, c'est la première fois pour moi d'obtenir un PC1 plus faible que les autres.
Frida
@Frida: le commentaire de ttnphns est sur la cible. Voir en.wikipedia.org/wiki/Linear_discriminant_analysis troisième paragraphe. Dans un certain sens, c'est la chance que l'ACP se révèle si utile.
Wayne
6

Je suppose que la réponse et l'exemple fournis par @Flounderer impliquent cela, mais je pense que cela vaut la peine de le préciser. L'analyse en composantes principales (ACP) est indifférente au label (classification). Il ne fait que transformer certaines données de haute dimension vers un autre espace dimensionnel. Cela peut aider dans les tentatives de classification en créant, par exemple, un ensemble de données plus facilement séparable par une méthode particulière. Cependant, ce n'est qu'un sous-produit (ou un effet secondaire) de l'ACP.

Boris Gorelik
la source
1

Lorsque nous effectuons l'analyse des composants principaux, les composants principaux correspondent aux directions de variabilité maximale, ils ne garantissent pas une discrimination ou une séparation maximale entre les classes.

Ainsi, le 2e composant vous donne une bonne classification signifie que les données dans cette direction vous donnent une meilleure discrimination entre les classes. Lorsque vous effectuez une analyse discriminante linéaire (LDA), elle vous donne les meilleurs composants de direction orthogonale qui maximisent la distance inter-classe et minimisent la distance intra-classe.

Donc, si vous faites du LDA sur les données au lieu de PCA, l'un des tout premiers composants serait probablement plus proche de PC6 que de PC1. J'espère que cela t'aides.

Santanu_Pattanayak
la source