Les composants de l'ACP (dans l'analyse des composants principaux) sont-ils statistiquement indépendants si nos données sont multivariées normalement distribuées? Si oui, comment cela peut-il être démontré / prouvé?
Je demande parce que j'ai vu ce post , où la réponse la plus élevée dit:
L'ACP ne fait pas d'hypothèse explicite de gaussianité. Il trouve les vecteurs propres qui maximisent la variance expliquée dans les données. L'orthogonalité des composantes principales signifie qu'elle trouve les composantes les plus non corrélées pour expliquer autant de variations dans les données que possible. Pour les distributions gaussiennes multivariées, une corrélation nulle entre les composants implique une indépendance qui n'est pas vraie pour la plupart des distributions.
La réponse est énoncée sans preuve et semble impliquer que l'ACP produit des composants indépendants si les données sont normales à plusieurs variables.
Plus précisément, disons que nos données sont des échantillons de:
nous mettons échantillons de dans des rangées de notre matrice d'échantillons , donc est . Le calcul de la SVD de (après centrage) donne
Peut-on dire que les colonnes de sont statistiquement indépendantes, également les rangées de ? Est-ce vrai en général, juste pour , ou pas vrai du tout?
la source
Réponses:
Je vais commencer par une démonstration intuitive.
J'ai généré observations (a) à partir d'une distribution 2D fortement non gaussienne, et (b) à partir d'une distribution gaussienne 2D. Dans les deux cas, j'ai centré les données et effectué la décomposition en valeurs singulières X = U S V ⊤ . Ensuite, pour chaque cas, j'ai fait un nuage de points des deux premières colonnes de U , l'une contre l'autre. Notez que ce sont généralement les colonnes d' U S qui sont appelées «composants principaux» (PC); les colonnes de U sont des PC mis à l'échelle pour avoir une norme d'unité; encore, dans cette réponse que je me concentre sur les colonnes de U . Voici les nuages de points:n=100 X=USV⊤ U US U U
Je pense que des déclarations telles que "les composants PCA ne sont pas corrélés" ou "les composants PCA sont dépendants / indépendants" sont généralement faites sur un exemple de matrice spécifique et se réfèrent aux corrélations / dépendances entre les lignes (voir par exemple la réponse de @ ttnphns ici ). PCA produit une matrice de données transformée U , où les lignes sont des observations et les colonnes sont des variables PC. C'est-à-dire que nous pouvons voir U comme un échantillon et demander quelle est la corrélation d'échantillon entre les variables PC. Cet exemple de matrice de corrélation est bien sûr donné par U ⊤ U = IX U U U⊤U=I , ce qui signifie que les corrélations d'échantillon entre les variables PC sont nulles. C'est ce que les gens veulent dire quand ils disent que "l'ACP diagonise la matrice de covariance", etc.
Conclusion 1: en coordonnées PCA, toutes les données ont une corrélation nulle.
Cela est vrai pour les deux diagrammes de dispersion ci-dessus. Cependant, il est immédiatement évident que les deux variables PC et y sur le nuage de points gauche (non gaussien) ne sont pas indépendantes; même s'ils ont une corrélation nulle, ils sont fortement dépendants et en fait liés par a y ≈ a ( x - b ) 2 . Et en effet, il est bien connu que non corrélé ne signifie pas indépendant .x y y≈a(x−b)2
Au contraire, les deux variables PC et yx y sur le nuage de points droit (gaussien) semblent être "à peu près indépendantes". Le calcul d'informations mutuelles entre elles (qui est une mesure de la dépendance statistique: les variables indépendantes ont zéro information mutuelle) par n'importe quel algorithme standard donnera une valeur très proche de zéro. Il ne sera pas exactement nul, car il ne sera jamais exactement nul pour une taille d'échantillon finie (sauf réglage fin); en outre, il existe différentes méthodes pour calculer les informations mutuelles de deux échantillons, donnant des réponses légèrement différentes. Mais nous pouvons nous attendre à ce que toute méthode produise une estimation d'informations mutuelles très proche de zéro.
Conclusion 2: en coordonnées PCA, les données gaussiennes sont "à peu près indépendantes", ce qui signifie que les estimations standard de la dépendance seront autour de zéro.
La question est cependant plus délicate, comme le montre la longue chaîne de commentaires. En effet, @whuber souligne à juste titre que les variables PCA et y (colonnes de U ) doivent être statistiquement dépendantes: les colonnes doivent être de longueur unitaire et doivent être orthogonales, ce qui introduit une dépendance. Par exemple, si une valeur dans la première colonne est égale à 1 , la valeur correspondante dans la deuxième colonne doit être 0 .x y U 1 0
Cela est vrai, mais n'est pertinent que pour de très petits , comme par exemple n = 3 (avec n = 2 après le centrage, il n'y a qu'un seul PC). Pour toute taille d'échantillon raisonnable, telle que n = 100 indiquée sur ma figure ci-dessus, l'effet de la dépendance sera négligeable; les colonnes de U sont des projections (échelonnées) de données gaussiennes, elles sont donc également gaussiennes, ce qui rend pratiquement impossible qu'une valeur soit proche de 1 (cela nécessiterait que tous les autres n - 1 éléments soient proches de 0 , ce qui n'est guère une distribution gaussienne).n n=3 n=2 n=100 U 1 n−1 0
Conclusion 3: à proprement parler, pour tout fini , les données gaussiennes en coordonnées PCA sont dépendantes; cependant, cette dépendance n'est pratiquement pas pertinente pour tout n ≫ 1 .n n≫1
Nous pouvons le préciser en considérant ce qui se passe dans la limite de . Dans la limite de la taille infinie de l'échantillon, la matrice de covariance de l'échantillon est égale à la matrice de covariance de population Σ . Donc , si le vecteur de données X est prélevée → X ~ N ( 0 , Σ ) , les variables PC sont → Y = Λ - 1 / 2 V ⊤ → X / ( n - 1 ) (où Λ et Vn→∞ Σ X X⃗ ∼N(0,Σ) Y⃗ =Λ−1/2V⊤X⃗ /(n−1) Λ V sont des valeurs propres et des vecteurs propres de ) et → Y ∼ N ( 0 , I / ( n - 1 ) ) . C'est-à-dire que les variables PC proviennent d'une gaussienne multivariée avec une covariance diagonale. Mais tout gaussien multivarié à matrice de covariance diagonale se décompose en un produit de gaussiens univariés, et c'est la définition de l'indépendance statistique :Σ Y⃗ ∼N(0,I/(n−1))
Conclusion 4: les variables PC asymptotiquement ( ) des données gaussiennes sont statistiquement indépendantes en tant que variables aléatoires, et un échantillon d'informations mutuelles donnera une valeur de population nulle.n→∞
Je dois noter qu'il est possible de comprendre cette question différemment (voir les commentaires de @whuber): considérer la matrice entière une variable aléatoire (obtenue à partir de la matrice aléatoire X via une opération spécifique) et demander s'il y a deux éléments spécifiques U i j et U k l de deux colonnes différentes sont statistiquement indépendants dans différents tirages de X . Nous avons exploré cette question dans ce dernier fil .U X Uij Ukl X
Voici les quatre conclusions intermédiaires ci-dessus:
la source