J'ai quelques questions rapides sur PCA:
- L'ACP suppose- t-elle que l'ensemble de données est gaussien?
- Que se passe-t-il lorsque j'applique une PCA à des données intrinsèquement non linéaires?
Étant donné un ensemble de données, le processus consiste d'abord à normaliser la moyenne, à définir la variance sur 1, à prendre un SVD, à réduire le classement et enfin à mapper l'ensemble de données dans le nouvel espace de classement réduit. Dans le nouvel espace, chaque dimension correspond à une "direction" de variance maximale.
- Mais la corrélation de cet ensemble de données dans le nouvel espace est-elle toujours nulle, ou est-ce vrai uniquement pour les données intrinsèquement gaussiennes?
Supposons que j'ai deux jeux de données, "A" et "B", où "A" correspond à des points échantillonnés au hasard pris à partir d'un gaussien, tandis que "B" correspond à des points échantillonnés au hasard à partir d'une autre distribution (disons Poisson).
- Comment l'APC (A) se compare-t-elle à l'APC (B)?
- En regardant les points dans le nouvel espace, comment pourrais-je déterminer que le PCA (A) correspond aux points échantillonnés à partir d'un gaussien, alors que le PCA (B) correspond aux points échantillonnés à partir d'un Poisson?
- La corrélation des points dans "A" est-elle 0?
- La corrélation des points dans "B" est-elle également 0?
- Plus important encore, est-ce que je pose la "bonne" question?
- Dois-je regarder la corrélation, ou y a-t-il une autre métrique que je devrais considérer?
Réponses:
Vous avez déjà quelques bonnes réponses ici (+1 aux deux @ Cam.Davidson.Pilon et @MichaelChernick). Permettez-moi de soulever quelques points qui m'aident à réfléchir à cette question.
Premièrement, l'ACP fonctionne sur la matrice de corrélation. Ainsi, il me semble que la question importante est de savoir s'il est judicieux d'utiliser une matrice de corrélation pour vous aider à réfléchir à vos données. Par exemple, la corrélation produit-moment de Pearson évalue la relation linéaire entre deux variables; si vos variables sont liées, mais pas de manière linéaire, la corrélation n'est pas une mesure idéale pour indexer la force de la relation. ( Voici une belle discussion sur CV sur la corrélation et les données non normales.)
Deuxièmement, je pense que la façon la plus simple de comprendre ce qui se passe avec PCA est que vous faites simplement tourner vos axes. Vous pouvez faire plus de choses, bien sûr, et malheureusement, l'ACP se confond avec l' analyse factorielle (qui en fait certainement plus). Néanmoins, un PCA ancien et sans cloches ni sifflets peut être considéré comme suit:
Ce n'est pas une métaphore parfaite pour PCA (par exemple, nous n'avons pas redimensionné les écarts à 1). Mais donne aux gens l'idée de base. Le point est maintenant d'utiliser cette image pour penser à quoi ressemble le résultat si les données n'étaient pas gaussiennes au départ; cela vous aidera à décider si ce processus en valait la peine. J'espère que cela pourra aider.
la source
Je peux donner une solution partielle et montrer une réponse pour votrew1 w2 Xw1 Xw2 X
la deuxième paragraphela source
Il n'y a aucune linéarité ou normalité supposée dans l'ACP. L'idée consiste simplement à décomposer la variation d'un ensemble de données à p dimensions en composantes orthogonales qui sont ordonnées en fonction de la quantité de variance expliquée.
la source
Lire la page 7 ici:
http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf
ils notent que l'ACP suppose que la distribution de tout ce que nous expliquons peut être décrite uniquement par une moyenne (de zéro) et une variance, qui, selon eux, ne peut être que la distribution normale.
(Fondamentalement, en plus de la réponse de Cam, mais je n'ai pas assez de réputation pour commenter:)
la source
Pour autant que je sache, PCA n'assume pas la normalité des données. Mais s'il est normalement distribué (dans un sens plus général, distribué symétriquement), alors le résultat est plus robuste. Comme d'autres personnes le disent, la clé est que l'ACP est basée sur la matrice des coefficients de corrélation de Pearson, dont l'estimation est affectée par les valeurs aberrantes et la distribution asymétrique. Donc, dans certaines analyses impliquées dans, comme le test statistique ou la valeur p, alors vous devriez vous soucier davantage de savoir si la normalité est satisfaite; mais dans d'autres applications comme l'analyse exploratoire, vous pouvez l'utiliser, mais ne faites attention qu'en faisant des interprétations.
la source
D'accord avec d'autres qui ont déclaré que les données devraient être distribuées «normalement». Toute distribution chevauchera avec une distribution normale si vous la transformez. Si votre distribution n'est pas normale, les résultats que vous obtiendrez seront inférieurs par rapport au cas où elle est normale, comme certains le disent ici ...
Si vous lisez la référence dans la première réponse, dans la section Annexe, il est indiqué que l'hypothèse est une distribution normale.
la source