Lors du calcul de la matrice de covariance d'un échantillon, est-il alors garanti d'obtenir une matrice symétrique et définie positive?
Actuellement, mon problème a un échantillon de 4600 vecteurs d'observation et 24 dimensions.
sampling
covariance
Morten
la source
la source
Réponses:
Pour un échantillon de vecteurs , avec , le vecteur moyen de l'échantillon est et l'exemple de matrice de covariance est Pour un vecteur non nul , nous avons Par conséquent, est toujours positif semi-défini .xi=(xi1,…,xik)⊤ i=1,…,n x¯=1n∑i=1nxi, Q=1n∑i=1n(xi−x¯)(xi−x¯)⊤. y∈Rk y⊤Qy=y⊤(1n∑i=1n(xi−x¯)(xi−x¯)⊤)y
=1n∑i=1ny⊤(xi−x¯)(xi−x¯)⊤y
=1n∑i=1n((xi−x¯)⊤y)2≥0.(∗) Q
La condition supplémentaire pour que soit positif et définitif a été donnée dans le commentaire ci-dessous. Cela va comme suit.Q
Définissez , pour . Pour tout non nul, , vaut zéro si et seulement si , pour chaque . Supposons que l'ensemble s'étend sur . Ensuite, il existe des nombres réels tels que . Mais nous avons alors , ce qui donne que , une contradiction. Par conséquent, si la portée de , alorszi=(xi−x¯) i=1,…,n y∈Rk (∗) z⊤iy=0 i=1,…,n {z1,…,zn} Rk α1,…,αn y=α1z1+⋯+αnzn y⊤y=α1z⊤1y+⋯+αnz⊤ny=0 y=0 zi Rk Q r a n k [ z 1 ... z n ] = kest positif défini . Cette condition est équivalente à .rank[z1…zn]=k
la source
Une matrice de covariance correcte est toujours symétrique et positive * semi * définie.
La covariance entre deux variables est définie comme .σ(x,y)=E[(x−E(x))(y−E(y))]
Cette équation ne change pas si vous changez les positions de et . Par conséquent, la matrice doit être symétrique.yx y
Il doit également être positif * semi- * défini car:
Vous pouvez toujours trouver une transformation de vos variables de manière à ce que la matrice de covariance devienne diagonale. Sur la diagonale, vous trouvez les variances de vos variables transformées nulles ou positives, il est facile de voir que cela rend la matrice transformée positive semi-définie. Cependant, comme la définition de la définition est invariante à la transformation, il en résulte que la matrice de covariance est semi-définie positive dans tout système de coordonnées choisi.
Lorsque vous estimez votre matrice de covariance (c'est-à-dire lorsque vous calculez votre covariance d'échantillon ) à l'aide de la formule que vous avez indiquée ci-dessus, il est évident que toujours être symétrique. Il doit également être positif semi-défini (je pense), car pour chaque échantillon, le pdf qui donne à chaque échantillon une probabilité égale a la covariance de l'échantillon comme covariance (veuillez vérifier cela), de sorte que tout ce qui est indiqué ci-dessus reste valable.
la source
Les matrices de variance-covariance sont toujours symétriques, comme le prouve l'équation réelle pour calculer chaque terme de ladite matrice.
De plus, les matrices de variance-covariance sont toujours des matrices carrées de taille n, où n est le nombre de variables de votre expérience.
Les vecteurs propres des matrices symétriques sont toujours orthogonaux.
Avec PCA, vous déterminez les valeurs propres de la matrice pour voir si vous pouviez réduire le nombre de variables utilisées dans votre expérience.
la source
J'ajouterais à l'argument avancé de Zen ce qui suit, ce qui explique pourquoi nous disons souvent que la matrice de covariance est définie positive si .n−1≥k
Si sont un échantillon aléatoire d'une distribution de probabilité continue, alors sont presque sûrement (au sens de la théorie des probabilités) linéairement indépendants. Maintenant, ne sont pas linéairement indépendants car , mais à cause de étant aussi indépendant linéairement, as span . Si , ils couvrent également .x1,x2,...,xn x1,x2,...,xn z1,z2,...,zn ∑ni=1zi=0 x1,x2,...,xn R n - 1 n - 1 ≥ k R kz1,z2,...,zn Rn−1 n−1≥k Rk
En conclusion, si sont un échantillon aléatoire d'une distribution de probabilité continue et , la matrice de covariance est définie positive. n - 1 ≥ kx1,x2,...,xn n−1≥k
la source
Pour ceux qui, comme moi, n’ont pas une formation mathématique et qui n’arrivent pas à comprendre rapidement les formules mathématiques abstraites, il s’agit d’un excellent exemple pour la réponse la plus élevée. La matrice de covariance peut également être dérivée d’une autre manière.
la source