Les composants de l'ACP des données gaussiennes multivariées sont-ils statistiquement indépendants?

16

Les composants de l'ACP (dans l'analyse des composants principaux) sont-ils statistiquement indépendants si nos données sont multivariées normalement distribuées? Si oui, comment cela peut-il être démontré / prouvé?

Je demande parce que j'ai vu ce post , où la réponse la plus élevée dit:

L'ACP ne fait pas d'hypothèse explicite de gaussianité. Il trouve les vecteurs propres qui maximisent la variance expliquée dans les données. L'orthogonalité des composantes principales signifie qu'elle trouve les composantes les plus non corrélées pour expliquer autant de variations dans les données que possible. Pour les distributions gaussiennes multivariées, une corrélation nulle entre les composants implique une indépendance qui n'est pas vraie pour la plupart des distributions.

La réponse est énoncée sans preuve et semble impliquer que l'ACP produit des composants indépendants si les données sont normales à plusieurs variables.

Plus précisément, disons que nos données sont des échantillons de:

xN(μ,Σ)

nous mettons n échantillons de x dans des rangées de notre matrice d'échantillons X , donc X est n×m . Le calcul de la SVD de X (après centrage) donne

X=USVT

Peut-on dire que les colonnes de U sont statistiquement indépendantes, également les rangées de VT ? Est-ce vrai en général, juste pour xN(μ,Σ) , ou pas vrai du tout?

bill_e
la source
1
stats.stackexchange.com/q/110508/3277 est une question similaire.
ttnphns
1
Je ne vois pas comment les PC pourraient être considérés comme "statistiquement indépendants" dans plus d'une dimension. Après tout, par définition, chacun est orthogonal à tous les autres; cette dépendance fonctionnelle crée une très forte dépendance statistique.
whuber
1
@amoeba J'espère avoir toujours été claire et fidèle à la question, que je trouve être clairement et sans ambiguïté: parce que les données sont aléatoires, sont donc toutes les entrées U . Je leur ai appliqué la définition de l'indépendance statistique. C'est tout. Votre problème semble être que vous utilisez le mot «non corrélé» dans deux sens très différents sans le comprendre apparemment: en vertu de la façon dont les colonnes de U sont construites, elles sont géométriquement orthogonales comme vecteurs dans R n , mais elles ne le sont pas signifie des vecteurs aléatoires indépendants! XUURn
whuber
1
@amoeba Vous avez raison - la simulation montre de façon assez convaincante que la corrélation peut être (fortement) différente de zéro. Cependant, je ne conteste pas que "les composants de l'ACP ne sont pas corrélés" dans le sens de "corrélation" = "orthogonale", et je ne dis pas qu'un manuel particulier est incorrect. Ce qui m'inquiète, c'est qu'une telle déclaration, correctement comprise, soit si sans rapport avec la question qu'elle ne puisse (et n'a fait) que semer une grande confusion dans le contexte actuel.
whuber
1
@whuber, je suis sûr que vous attendiez avec impatience une nouvelle édition de ma réponse! C'est ici. Je reconnais explicitement vos points sur la dépendance et déclare que les colonnes de sont asymptotiquement indépendantes, comme mon point principal. Ici, "asymptotiquement" se réfère au nombre n d'observations (lignes). J'espère vraiment que nous pourrons nous mettre d'accord là-dessus! Je soutiens également que pour tout n raisonnable , tel que n = 100 , la dépendance entre les colonnes est "pratiquement hors de propos". Je suppose que c'est un point plus controversé, mais j'essaie de le rendre raisonnablement précis dans ma réponse. Unnn=100
amibe dit Réintégrer Monica

Réponses:

23

Je vais commencer par une démonstration intuitive.

J'ai généré observations (a) à partir d'une distribution 2D fortement non gaussienne, et (b) à partir d'une distribution gaussienne 2D. Dans les deux cas, j'ai centré les données et effectué la décomposition en valeurs singulières X = U S V . Ensuite, pour chaque cas, j'ai fait un nuage de points des deux premières colonnes de U , l'une contre l'autre. Notez que ce sont généralement les colonnes d' U S qui sont appelées «composants principaux» (PC); les colonnes de U sont des PC mis à l'échelle pour avoir une norme d'unité; encore, dans cette réponse que je me concentre sur les colonnes de U . Voici les nuages ​​de points:n=100X=USVUUSUU

PCA of Gaussian and non-Gaussian data

Je pense que des déclarations telles que "les composants PCA ne sont pas corrélés" ou "les composants PCA sont dépendants / indépendants" sont généralement faites sur un exemple de matrice spécifique et se réfèrent aux corrélations / dépendances entre les lignes (voir par exemple la réponse de @ ttnphns ici ). PCA produit une matrice de données transformée U , où les lignes sont des observations et les colonnes sont des variables PC. C'est-à-dire que nous pouvons voir U comme un échantillon et demander quelle est la corrélation d'échantillon entre les variables PC. Cet exemple de matrice de corrélation est bien sûr donné par UU = IXUUUU=I, ce qui signifie que les corrélations d'échantillon entre les variables PC sont nulles. C'est ce que les gens veulent dire quand ils disent que "l'ACP diagonise la matrice de covariance", etc.

Conclusion 1: en coordonnées PCA, toutes les données ont une corrélation nulle.

Cela est vrai pour les deux diagrammes de dispersion ci-dessus. Cependant, il est immédiatement évident que les deux variables PC et y sur le nuage de points gauche (non gaussien) ne sont pas indépendantes; même s'ils ont une corrélation nulle, ils sont fortement dépendants et en fait liés par a y a ( x - b ) 2 . Et en effet, il est bien connu que non corrélé ne signifie pas indépendant .xyya(xb)2

Au contraire, les deux variables PC et yxy sur le nuage de points droit (gaussien) semblent être "à peu près indépendantes". Le calcul d'informations mutuelles entre elles (qui est une mesure de la dépendance statistique: les variables indépendantes ont zéro information mutuelle) par n'importe quel algorithme standard donnera une valeur très proche de zéro. Il ne sera pas exactement nul, car il ne sera jamais exactement nul pour une taille d'échantillon finie (sauf réglage fin); en outre, il existe différentes méthodes pour calculer les informations mutuelles de deux échantillons, donnant des réponses légèrement différentes. Mais nous pouvons nous attendre à ce que toute méthode produise une estimation d'informations mutuelles très proche de zéro.

Conclusion 2: en coordonnées PCA, les données gaussiennes sont "à peu près indépendantes", ce qui signifie que les estimations standard de la dépendance seront autour de zéro.

La question est cependant plus délicate, comme le montre la longue chaîne de commentaires. En effet, @whuber souligne à juste titre que les variables PCA et y (colonnes de U ) doivent être statistiquement dépendantes: les colonnes doivent être de longueur unitaire et doivent être orthogonales, ce qui introduit une dépendance. Par exemple, si une valeur dans la première colonne est égale à 1 , la valeur correspondante dans la deuxième colonne doit être 0 .xyU10

Cela est vrai, mais n'est pertinent que pour de très petits , comme par exemple n = 3 (avec n = 2 après le centrage, il n'y a qu'un seul PC). Pour toute taille d'échantillon raisonnable, telle que n = 100 indiquée sur ma figure ci-dessus, l'effet de la dépendance sera négligeable; les colonnes de U sont des projections (échelonnées) de données gaussiennes, elles sont donc également gaussiennes, ce qui rend pratiquement impossible qu'une valeur soit proche de 1 (cela nécessiterait que tous les autres n - 1 éléments soient proches de 0 , ce qui n'est guère une distribution gaussienne).nn=3n=2n=100U1n10

Conclusion 3: à proprement parler, pour tout fini , les données gaussiennes en coordonnées PCA sont dépendantes; cependant, cette dépendance n'est pratiquement pas pertinente pour tout n 1 .nn1

Nous pouvons le préciser en considérant ce qui se passe dans la limite de . Dans la limite de la taille infinie de l'échantillon, la matrice de covariance de l'échantillon est égale à la matrice de covariance de population Σ . Donc , si le vecteur de données X est prélevée X ~ N ( 0 , Σ ) , les variables PC sont Y = Λ - 1 / 2 V X / ( n - 1 ) (où Λ et VnΣXXN(0,Σ)Y=Λ1/2VX/(n1)ΛVsont des valeurs propres et des vecteurs propres de ) et YN ( 0 , I / ( n - 1 ) ) . C'est-à-dire que les variables PC proviennent d'une gaussienne multivariée avec une covariance diagonale. Mais tout gaussien multivarié à matrice de covariance diagonale se décompose en un produit de gaussiens univariés, et c'est la définition de l'indépendance statistique :ΣYN(0,I/(n1))

N(0,diag(σi2))=1(2π)k/2det(diag(σi2))1/2exp[xdiag(σi2)x/2]=1(2π)k/2(i=1kσi2)1/2exp[i=1kσi2xi2/2]=1(2π)1/2σiexp[σi2xi2/2]=N(0,σi2).

Conclusion 4: les variables PC asymptotiquement ( ) des données gaussiennes sont statistiquement indépendantes en tant que variables aléatoires, et un échantillon d'informations mutuelles donnera une valeur de population nulle.n

Je dois noter qu'il est possible de comprendre cette question différemment (voir les commentaires de @whuber): considérer la matrice entière une variable aléatoire (obtenue à partir de la matrice aléatoire X via une opération spécifique) et demander s'il y a deux éléments spécifiques U i j et U k l de deux colonnes différentes sont statistiquement indépendants dans différents tirages de X . Nous avons exploré cette question dans ce dernier fil .UXUijUklX


Voici les quatre conclusions intermédiaires ci-dessus:

  • En coordonnées PCA, toutes les données ont une corrélation nulle.
  • En coordonnées PCA, les données gaussiennes sont "à peu près indépendantes", ce qui signifie que les estimations standard de la dépendance seront autour de zéro.
  • nn1
  • n
amibe dit réintégrer Monica
la source
Vous écrivez "Cependant, si les données sont gaussiennes multivariées, elles sont en effet indépendantes". «Ils» étant les principaux composants et leurs coefficients? Qu'entendez-vous par PCA diagonalisant la matrice de covariance? Merci pour votre réponse!
bill_e
«Ils» fait référence aux principales composantes (qui sont des projections des données sur les directions de la variance maximale). L'ACP recherche des directions de variance maximale; s'avère que ces directions sont données par les vecteurs propres de la matrice de covariance. Si vous changez les coordonnées en "coordonnées PCA", alors la matrice de covariance sera diagonale, c'est ainsi que fonctionne la composition par eigendec. De manière équivalente, matriceSdans le SVD de votre question est une matrice diagonale. En outre, la matriceU is orthogonal, meaning that its covariance matrix is diagonal. All of that means that PCs have correlation zero.
amoeba says Reinstate Monica
Cool, thank you! The combination of your answer and this comment helps clear things up for me a lot. Can I edit your comment into your answer?
bill_e
I expanded the answer by incorporating the comment; see if you are happy with it now.
amoeba says Reinstate Monica
2
Discussion intéressante! Quand j'ai posé la question, ma pensée de la dépendance statistique était "si vous connaissez PC1, est-il possible de déduire PC2 ?, etc." Je vais maintenant me pencher davantage sur les tests d'indépendance basés sur des informations mutuelles.
bill_e