Comprendre ce graphique PCA des ventes de glaces en fonction de la température

9

Je prends une donnée factice de la température par rapport aux ventes de crème glacée et la classe en utilisant K Means (n ​​grappes = 2) pour distinguer 2 catégories (totalement factice).

Maintenant, je fais une analyse en composantes principales sur ces données et mon objectif est de comprendre ce que je vois. Je sais que l'objectif de l'ACP est de réduire la dimensionnalité (évidemment pas dans ce cas) et de montrer la variance des éléments. Mais comment lisez-vous l'intrigue PCA ci-dessous, c'est-à-dire quelle est l'histoire que vous pouvez raconter sur la température par rapport à la crème glacée dans l'intrigue PCA? Que signifient les 1er (X) et 2e (Y) PC?

entrez la description de l'image ici

adhg
la source
1
Cela devrait être un commentaire, mais j'ai un représentant insuffisant. Le lien ci-dessous est un excellent tutoriel sur PCA. En particulier, l'exemple de jouet établit un bon équilibre entre "assez simple pour comprendre avec une image" et "suffisamment compliqué pour qu'il puisse être utilisé comme analogie dans de futurs problèmes". Je pense que sa lecture pourrait aider à clarifier ce que l'APC peut et ne peut pas faire pour vous. cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf
Jason

Réponses:

18

Je sais que l'objectif de l'ACP est de réduire la dimensionnalité

C'est souvent ce que les gens supposent, mais en fait, l'ACP n'est qu'une représentation de vos données sur une base orthogonale. Cette base a toujours la même dimensionnalité que vos données d'origine. Rien n'est encore perdu ... La partie réduction de dimensionnalité dépend entièrement de vous. PCA garantit que les premières dimensions de votre nouvelle projection sont les meilleures dimensions sous lesquelles vos données pourraient éventuellement être représentées. Que signifie le mieux? C'est là que la variance expliquée entre en jeu.kk k

évidemment pas dans ce cas

Je n'en serais pas si sûr! À partir de votre deuxième tracé, visuellement, il semble que beaucoup d'informations de vos données puissent être projetées sur une ligne horizontale. C'est 1 dimension, au lieu de l'intrigue originale qui était en 2 dimensions! De toute évidence, vous perdez des informations parce que vous supprimez l'axe Y, mais si cette perte d'informations vous convient, c'est votre appel.

Il y a une tonne de questions liées à ce que l'APC est sur le site, donc je vous encourage à les vérifier ici , ici , ici ou ici . Si vous avez d'autres questions après cela, veuillez les poster et je serai heureux de vous aider.

Comme votre question réelle:

Quelle est l'histoire que vous pouvez raconter sur la température par rapport à la crème glacée dans l'intrigue PCA?

Étant donné que les nouveaux axes de coordonnées sont une combinaison linéaire des coordonnées d'origine, alors ... essentiellement rien! PCA vous donnera une réponse comme (chiffres composés):

PC1=2.5×ice cream3.6×temperaturePC2=1,5×crème glacée+0,6×Température

Cela vous est-il utile? Peut être. Mais je suppose que non :)

Édité

J'ajouterai cette ressource qui je pense est utile parce que les graphiques interactifs sont cool.

Modifié à nouveau

Pour clarifier ce que signifie le meilleur :k

PCA essaie de trouver les dimensions qui produisent la variance la plus élevée lorsque les données sont projetées sur elles. En supposant que vos données ont dimensions, les premiers PC expliquent plus de variance dans vos données que n'importe quelle autre dimension . C'est ce que je veux dire par meilleur . Que cela vous soit utile ou non, c'est autre chose.k k kn>kkk k

ilanman
la source
6
Assurez-vous également de mettre à l'échelle les variables. Sinon, les ventes (nombres beaucoup plus élevés) expliqueront la majorité de la variance. Probablement pourquoi les unités de vos PC sont si différentes.
Filipe
Bonne réponse, mais votre déclaration "... les meilleures dimensions kk que vos données pourraient éventuellement être représentées comme ..." est peut-être trop généralisée. La direction de la variance maximale n'est pas nécessairement utile pour séparer deux classes. D'une manière ou d'une autre, cela fonctionne souvent bien, mais pas parce que PCA fait tout pour faire les meilleurs choix dans un but particulier.
Wayne
"en fait PCA est juste une représentation de vos données sur une base orthogonale." Je suis constamment surpris par le fait que beaucoup de gens ne comprennent pas ce point ...
3x89g2
5

À la bonne réponse d'Ilan man, j'ajouterais qu'il existe une interprétation assez simple de vos principaux composants, bien que dans ce cas 2D simple, cela n'ajoute pas grand-chose à ce que nous aurions pu interpréter en regardant simplement le nuage de points.

Le premier PC est une somme pondérée (c'est-à-dire une combinaison linéaire où les deux coefficients sont positifs) de la température et de la consommation de glaces. Dans le côté droit, vous avez des jours chauds où beaucoup de glaces sont vendues, et dans le côté gauche, vous avez des jours plus froids où moins de glaces sont vendues. Ce PC explique la plupart de votre variance et les groupes que vous avez correspondent à ces deux côtés.

Le deuxième PC mesure la façon dont la température et la consommation de glaces s'éloignent de la relation linéaire étroite soulignée par le premier PC. Dans la partie supérieure du graphique, nous avons des jours avec plus de glaces vendues par rapport à d'autres jours de la même température et dans la partie inférieure des jours avec moins de glaces vendues que prévu en fonction de la température. Ce PC explique juste une petite partie de la variance.

Autrement dit, nous pouvons raconter une histoire à partir des principaux composants, bien qu'avec seulement deux variables, c'est la même histoire que nous aurions pu remarquer sans PCA. Avec plus de variables, l'ACP devient plus utile car elle raconte des histoires qui seraient plus difficiles à remarquer autrement.

Pere
la source