PCA de données non gaussiennes

20

J'ai quelques questions rapides sur PCA:

  • L'ACP suppose- t-elle que l'ensemble de données est gaussien?
  • Que se passe-t-il lorsque j'applique une PCA à des données intrinsèquement non linéaires?

Étant donné un ensemble de données, le processus consiste d'abord à normaliser la moyenne, à définir la variance sur 1, à prendre un SVD, à réduire le classement et enfin à mapper l'ensemble de données dans le nouvel espace de classement réduit. Dans le nouvel espace, chaque dimension correspond à une "direction" de variance maximale.

  • Mais la corrélation de cet ensemble de données dans le nouvel espace est-elle toujours nulle, ou est-ce vrai uniquement pour les données intrinsèquement gaussiennes?

Supposons que j'ai deux jeux de données, "A" et "B", où "A" correspond à des points échantillonnés au hasard pris à partir d'un gaussien, tandis que "B" correspond à des points échantillonnés au hasard à partir d'une autre distribution (disons Poisson).

  • Comment l'APC (A) se compare-t-elle à l'APC (B)?
  • En regardant les points dans le nouvel espace, comment pourrais-je déterminer que le PCA (A) correspond aux points échantillonnés à partir d'un gaussien, alors que le PCA (B) correspond aux points échantillonnés à partir d'un Poisson?
  • La corrélation des points dans "A" est-elle 0?
  • La corrélation des points dans "B" est-elle également 0?
  • Plus important encore, est-ce que je pose la "bonne" question?
  • Dois-je regarder la corrélation, ou y a-t-il une autre métrique que je devrais considérer?
Vishal
la source
2
Voir l'annexe sur les hypothèses de l'ACP dans ce document .
supposé normal

Réponses:

17

Vous avez déjà quelques bonnes réponses ici (+1 aux deux @ Cam.Davidson.Pilon et @MichaelChernick). Permettez-moi de soulever quelques points qui m'aident à réfléchir à cette question.

Premièrement, l'ACP fonctionne sur la matrice de corrélation. Ainsi, il me semble que la question importante est de savoir s'il est judicieux d'utiliser une matrice de corrélation pour vous aider à réfléchir à vos données. Par exemple, la corrélation produit-moment de Pearson évalue la relation linéaire entre deux variables; si vos variables sont liées, mais pas de manière linéaire, la corrélation n'est pas une mesure idéale pour indexer la force de la relation. ( Voici une belle discussion sur CV sur la corrélation et les données non normales.)

Deuxièmement, je pense que la façon la plus simple de comprendre ce qui se passe avec PCA est que vous faites simplement tourner vos axes. Vous pouvez faire plus de choses, bien sûr, et malheureusement, l'ACP se confond avec l' analyse factorielle (qui en fait certainement plus). Néanmoins, un PCA ancien et sans cloches ni sifflets peut être considéré comme suit:

  • vous avez quelques points tracés en deux dimensions sur une feuille de papier millimétré;
  • vous avez une transparence avec des axes orthogonaux dessinés dessus, et un trou d'épingle à l'origine;
  • vous centrez l'origine de la transparence (c.-à-d. le trou d'épingle) sur et passez la pointe de votre crayon à travers le trou d'épingle pour le maintenir en place; (x¯,y¯)
  • puis vous faites pivoter la transparence jusqu'à ce que les points (lorsqu'ils sont indexés selon les axes de la transparence au lieu de ceux d'origine) soient décorrélés.

Ce n'est pas une métaphore parfaite pour PCA (par exemple, nous n'avons pas redimensionné les écarts à 1). Mais donne aux gens l'idée de base. Le point est maintenant d'utiliser cette image pour penser à quoi ressemble le résultat si les données n'étaient pas gaussiennes au départ; cela vous aidera à décider si ce processus en valait la peine. J'espère que cela pourra aider.

gung - Réintégrer Monica
la source
2
+1 (il y a longtemps). Je pense que c'est la meilleure réponse dans ce fil, j'espère qu'il rassemblera un vote de plus pour devenir le plus de votes aussi. J'aime ta façon d'expliquer l'APC avec une transparence, c'est bien.
amibe dit Réintégrer Monica le
Soit dit en passant, votre réponse a inspiré ma réponse récente dans notre immense fil de discussion PCA profane: j'ai créé ces gifs animés en gardant à l'esprit votre analogie en matière de transparence.
amibe dit Réintégrer Monica
C'est une excellente réponse, @amoeba. C'est beaucoup mieux que ça.
gung - Réintégrer Monica
13

Je peux donner une solution partielle et montrer une réponse pour votre la deuxième paragraphew1w2Xw1Xw2X

Cov(Xw1,Xw2)=E[(Xw1)T(Xw2)]E[Xw1]TE[Xw2]
wiX
w1TE[XTX]w2=Var(X)w1Tw2=0
wiVar(X)

XXwXXw

α

Cam.Davidson.Pilon
la source
7

Il n'y a aucune linéarité ou normalité supposée dans l'ACP. L'idée consiste simplement à décomposer la variation d'un ensemble de données à p dimensions en composantes orthogonales qui sont ordonnées en fonction de la quantité de variance expliquée.

Michael R. Chernick
la source
2
Vrai, mais "décomposer la variation d'un ensemble de données à p dimensions en composants orthogonaux" n'est pas très utile lorsqu'il existe des dépendances non linéaires entre les variables, car l'orthogonalisation a généralement été effectuée de sorte que vous pouvez affirmer que les dimensions ne sont pas liées (ce qui est également lié à la partie gaussienne de la question). Lorsque vous effectuez l'ACP et prévoyez d'interpréter les résultats de la manière habituelle, il y a une hypothèse sous-jacente selon laquelle les données vivent dans un sous-espace linéaire de dimension inférieure .
Macro
2
@Macro Pas exactement. Je dirais que l'hypothèse sous-jacente est qu'au moins la majeure partie de la variabilité et donc du modèle des données est concentrée dans un espace dimensionnel inférieur. Je peux très bien voir une parabole dans un espace à 2 dimensions avec des composants orthogonaux. Je pense que les formes non linéaires peuvent être vues en deux ou trois dimensions. Si les données proviennent d'une distribution gaussienne multivariée, dans certains sous-espaces, les points devraient ressembler à un nuage ellipsoïdal. La distribution n'a pas à ressembler à un ellipsoïde pour que sa vue dans le sous-espace des PC élevés soit intéressante.
Michael R. Chernick
4
Je qualifierais cela légèrement. Il n'y a pas d'hypothèse de normalité dans l'APC classique ou l'APC par SVD. Cependant, les algorithmes EM pour calculer l'ACP avec des données manquantes supposeront la normalité et la linéarité.
John
Alors que la route classique vers l'ACP n'a pas besoin d'hypothèses, il existe une autre route vers sa solution: l'ACP probabiliste avec 0 bruit de mesure.
bayerj
3

Lire la page 7 ici:

http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

ils notent que l'ACP suppose que la distribution de tout ce que nous expliquons peut être décrite uniquement par une moyenne (de zéro) et une variance, qui, selon eux, ne peut être que la distribution normale.

(Fondamentalement, en plus de la réponse de Cam, mais je n'ai pas assez de réputation pour commenter:)

user3264325
la source
1
Le lien que vous avez fourni vers le didacticiel de Shlens est vers la version 1 du didacticiel, mais la version 3.02 (la version finale?) Est maintenant disponible et ce point spécifique a été supprimé. De plus, cette question posait exactement la question.
Oren Milman
0

Pour autant que je sache, PCA n'assume pas la normalité des données. Mais s'il est normalement distribué (dans un sens plus général, distribué symétriquement), alors le résultat est plus robuste. Comme d'autres personnes le disent, la clé est que l'ACP est basée sur la matrice des coefficients de corrélation de Pearson, dont l'estimation est affectée par les valeurs aberrantes et la distribution asymétrique. Donc, dans certaines analyses impliquées dans, comme le test statistique ou la valeur p, alors vous devriez vous soucier davantage de savoir si la normalité est satisfaite; mais dans d'autres applications comme l'analyse exploratoire, vous pouvez l'utiliser, mais ne faites attention qu'en faisant des interprétations.

KarlHuang
la source
-1

D'accord avec d'autres qui ont déclaré que les données devraient être distribuées «normalement». Toute distribution chevauchera avec une distribution normale si vous la transformez. Si votre distribution n'est pas normale, les résultats que vous obtiendrez seront inférieurs par rapport au cas où elle est normale, comme certains le disent ici ...

  • Vous pouvez transformer votre distribution si vous en avez besoin.
  • Vous pouvez opter pour l'ACP et utiliser l'analyse de composants indépendants (ICA) à la place.

Si vous lisez la référence dans la première réponse, dans la section Annexe, il est indiqué que l'hypothèse est une distribution normale.

Cendre
la source