Je parle ici de matrices de corrélations de Pearson.
J'ai souvent entendu dire que toutes les matrices de corrélation doivent être semi-définies positives. Ma compréhension est que les matrices définies positives doivent avoir des valeurs propres , tandis que les matrices semi-définies positives doivent avoir des valeurs propres . Cela me fait penser que ma question peut être reformulée comme "Est-il possible que les matrices de corrélation aient une valeur propre ?"≥ 0 = 0
Est-il possible qu'une matrice de corrélation (générée à partir de données empiriques, sans données manquantes) ait une valeur propre ou une valeur propre ? Et si c'était plutôt une matrice de corrélation de population?< 0
Je lis à la réponse de haut à cette question sur les matrices de covariance qui
Considérons trois variables , et . Leur matrice de covariance, , n'est pas définie positive, car il existe un vecteur ( ) pour lequel n'est pas positif.Y Z = X + Y M z = ( 1 , 1 , - 1 ) ′ z ′ M z
Cependant, si au lieu d'une matrice de covariance je fais ces calculs sur une matrice de corrélation, alors apparaît comme positif. Je pense donc que la situation est peut-être différente pour les matrices de corrélation et de covariance.
Ma raison de demander est que l'on m'a demandé sur stackoverflow , par rapport à une question que j'ai posée là-bas.
la source
Réponses:
Les matrices de corrélation n'ont pas besoin d'être définies positives.
Considérons une variable aléatoire scalaire X ayant une variance non nulle. Alors la matrice de corrélation de X avec elle-même est la matrice de tous, qui est semi-définie positive, mais pas définie positive.
En ce qui concerne la corrélation d'échantillon, considérons les données d'échantillon pour ce qui précède, ayant la première observation 1 et 1, et la deuxième observation 2 et 2. Il en résulte que la corrélation d'échantillon est la matrice de tous, donc pas définie positive.
Un échantillon de matrice de corrélation, s'il est calculé en arithmétique exacte (c'est-à-dire sans erreur d'arrondi) ne peut pas avoir de valeurs propres négatives.
la source
Les réponses de @yoki et @MarkLStone (+1 aux deux) indiquent toutes les deux qu'une matrice de corrélation de population peut avoir zéro valeurs propres si les variables sont liées linéairement (comme par exemple dans l'exemple de @MarkLStone et X 1 = 2 X 2 dans l'exemple de @yoki).X1= X2 X1= 2 X2
De plus, une matrice de corrélation d' échantillon aura nécessairement des valeurs propres nulles si , c'est-à-dire si la taille de l'échantillon est inférieure au nombre de variables. Dans ce cas, les matrices de covariance et de corrélation seront toutes deux au plus de rang n - 1 , il y aura donc au moins p - n + 1 valeurs propres nulles. Voir Pourquoi une matrice de covariance d'échantillon est-elle singulière lorsque la taille de l'échantillon est inférieure au nombre de variables? et Pourquoi le rang de la matrice de covariance est-il au plus n - 1 ?n < p n - 1 p - n + 1 n - 1
la source
Considérons comme un rv avec une moyenne de 0 et une variance de 1. Soit Y = 2 X , et calculons la matrice de covariance de ( X , Y ) . Puisque 2 X = Y , E [ Y 2 ] = 4 E [ X 2 ] = σ 2 Y et E [ X Y ] = 2 E [ X 2 ]X Oui= 2 X ( X, Y) 2 X= Y E[ Oui2] = 4 E[ X2] = σ2Oui E[ XOui] = 2 E[ X2] . En raison de la configuration moyenne nulle, les seconds moments sont égaux aux covariances appropriées, par exemple: .Cov (X, Y) = E[ XOui] - EXEOui= E[ XOui]
La matrice de covariance sera donc: ayant une valeur propre nulle. La matrice de corrélation sera: Λ = ( 1 1 1 1 ) , ayant également une valeur propre nulle. En raison de la correspondance linéaire entre X et Y, il est facile de comprendre pourquoi nous obtenons cette matrice de corrélation - la diagonale sera toujours 1 et la hors diagonale est 1 en raison de la relation linéaire.
la source
2