Je prends une donnée factice de la température par rapport aux ventes de crème glacée et la classe en utilisant K Means (n grappes = 2) pour distinguer 2 catégories (totalement factice).
Maintenant, je fais une analyse en composantes principales sur ces données et mon objectif est de comprendre ce que je vois. Je sais que l'objectif de l'ACP est de réduire la dimensionnalité (évidemment pas dans ce cas) et de montrer la variance des éléments. Mais comment lisez-vous l'intrigue PCA ci-dessous, c'est-à-dire quelle est l'histoire que vous pouvez raconter sur la température par rapport à la crème glacée dans l'intrigue PCA? Que signifient les 1er (X) et 2e (Y) PC?
Réponses:
C'est souvent ce que les gens supposent, mais en fait, l'ACP n'est qu'une représentation de vos données sur une base orthogonale. Cette base a toujours la même dimensionnalité que vos données d'origine. Rien n'est encore perdu ... La partie réduction de dimensionnalité dépend entièrement de vous. PCA garantit que les premières dimensions de votre nouvelle projection sont les meilleures dimensions sous lesquelles vos données pourraient éventuellement être représentées. Que signifie le mieux? C'est là que la variance expliquée entre en jeu.kk k
Je n'en serais pas si sûr! À partir de votre deuxième tracé, visuellement, il semble que beaucoup d'informations de vos données puissent être projetées sur une ligne horizontale. C'est 1 dimension, au lieu de l'intrigue originale qui était en 2 dimensions! De toute évidence, vous perdez des informations parce que vous supprimez l'axe Y, mais si cette perte d'informations vous convient, c'est votre appel.
Il y a une tonne de questions liées à ce que l'APC est sur le site, donc je vous encourage à les vérifier ici , ici , ici ou ici . Si vous avez d'autres questions après cela, veuillez les poster et je serai heureux de vous aider.
Comme votre question réelle:
Étant donné que les nouveaux axes de coordonnées sont une combinaison linéaire des coordonnées d'origine, alors ... essentiellement rien! PCA vous donnera une réponse comme (chiffres composés):
Cela vous est-il utile? Peut être. Mais je suppose que non :)
Édité
J'ajouterai cette ressource qui je pense est utile parce que les graphiques interactifs sont cool.
Modifié à nouveau
Pour clarifier ce que signifie le meilleur :k
PCA essaie de trouver les dimensions qui produisent la variance la plus élevée lorsque les données sont projetées sur elles. En supposant que vos données ont dimensions, les premiers PC expliquent plus de variance dans vos données que n'importe quelle autre dimension . C'est ce que je veux dire par meilleur . Que cela vous soit utile ou non, c'est autre chose.k k kn > k k k k
la source
À la bonne réponse d'Ilan man, j'ajouterais qu'il existe une interprétation assez simple de vos principaux composants, bien que dans ce cas 2D simple, cela n'ajoute pas grand-chose à ce que nous aurions pu interpréter en regardant simplement le nuage de points.
Le premier PC est une somme pondérée (c'est-à-dire une combinaison linéaire où les deux coefficients sont positifs) de la température et de la consommation de glaces. Dans le côté droit, vous avez des jours chauds où beaucoup de glaces sont vendues, et dans le côté gauche, vous avez des jours plus froids où moins de glaces sont vendues. Ce PC explique la plupart de votre variance et les groupes que vous avez correspondent à ces deux côtés.
Le deuxième PC mesure la façon dont la température et la consommation de glaces s'éloignent de la relation linéaire étroite soulignée par le premier PC. Dans la partie supérieure du graphique, nous avons des jours avec plus de glaces vendues par rapport à d'autres jours de la même température et dans la partie inférieure des jours avec moins de glaces vendues que prévu en fonction de la température. Ce PC explique juste une petite partie de la variance.
Autrement dit, nous pouvons raconter une histoire à partir des principaux composants, bien qu'avec seulement deux variables, c'est la même histoire que nous aurions pu remarquer sans PCA. Avec plus de variables, l'ACP devient plus utile car elle raconte des histoires qui seraient plus difficiles à remarquer autrement.
la source