Pourquoi une matrice de covariance d'échantillon est-elle singulière lorsque la taille de l'échantillon est inférieure au nombre de variables?

30

Disons que j'ai une distribution gaussienne multivariée à dimensions. Je suppose observations (chacun d'eux un -vector) à partir de cette distribution et calculer la matrice de covariance d'échantillon . Dans cet article , les auteurs déclarent que la matrice de covariance de l'échantillon calculée avec est singulière. $p$ $n$ $p$ $S$ $p > n$

Comment est-ce vrai ou dérivé?
Des explications?

covariance-matrix linear-algebra user34790
la source

4

Notez que cela est vrai indépendamment de la distribution sous-jacente: il n'a pas besoin d'être gaussien.

amibe dit Reinstate Monica

22

Quelques faits sur les rangs matriciels, proposés sans preuve (mais les preuves de tous ou presque tous doivent être données dans des textes d'algèbre linéaire standard, ou dans certains cas, être définies comme des exercices après avoir donné suffisamment d'informations pour pouvoir le faire):

Si et sont deux matrices conformables, alors: $A$ $B$

(i) rang de colonne de = rang de ligne de $A$ $A$

(ii) $\text{rank}(A) = \text{rank}(A^T) = \text{rank}(A^TA) = \text{rank}(AA^T)$

(iii) $\text{rank}(AB)\leq \min(\text{rank}(A),\text{rank}(B))$

(iv) $\text{rank}(A+B) \leq \text{rank}(A) + \text{rank}(B)$

(v) si est une matrice carrée de rang complet, alors $B$ $\text{rank}(AB) = \text{rank}(A)$

Considérons la matrice des données d'échantillon, . D'après ce qui précède, le rang de est au plus . $n\times p$ $y$ $y$ $\min(n,p)$

De plus, de ce qui précède, le rang de ne sera clairement pas plus grand que le rang de (en considérant le calcul de sous forme matricielle, avec peut-être une simplification). $S$ $y$ $S$

Si alors auquel cas . $n<p$ $\text{rank}(y)<p$ $\text{rank}(S)<p$

Glen_b -Reinstate Monica
la source

Bonne réponse! Il n'est cependant pas entièrement clair comment y et S sont liés à A et B?

Matifou

S est calculé à partir de y; ("x" dans le message d'origine). Vous pouvez utiliser les faits sur y et les manipulations qui y sont faites (via les règles ci-dessus) pour obtenir une limite sur le rang de S. Les rôles joués par A et B changent d'étape en étape.

Glen_b -Reinstate Monica

14

La réponse courte à votre question est que le rang . Donc si , alors est singulier. $(S) \le n - 1$ $p > n$ $S$

Pour une réponse plus détaillée, rappelez-vous que la matrice de covariance d'échantillon (non biaisée) peut s'écrire

S = \frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x}) (x_{i} - \bar{x})^{T} .

$S = \frac{1}{n-1}\sum_{i=1}^n (x_i - \bar{x})(x_i - \bar{x})^T.$

En effet, nous sommons matrices, chacune ayant un rang de 1. En supposant que les observations sont linéairement indépendantes, dans un certain sens, chaque observation contribue 1 au rang , et un 1 est soustrait du rang (si ) car nous chaque observation sur . Cependant, si la multicolinéarité est présente dans les observations, alors le rang peut être réduit, ce qui explique pourquoi le rang peut être inférieur à . $n$ $x_i$ $(S)$ $p > n$ $\bar{x}$ $(S)$ $n - 1$

Une grande quantité de travail a été consacrée à l'étude de ce problème. Par exemple, un de mes collègues et moi avons écrit un article sur ce même sujet, où nous voulions déterminer comment procéder si est singulier lorsqu'il est appliqué à une analyse discriminante linéaire dans le paramètre . $S$ $p \gg n$

ramhiser
la source

4

Pourriez-vous expliquer pourquoi soustraire 1 parce que nous chaque observation par $\bar x$ ?

avocat

@loganecolss: Voir Pourquoi le rang de la matrice de covariance est-il au plus

?

n - 1

$n−1$ pour une réponse à votre question.

amibe dit Réintégrer Monica

Bonne réponse! Peut-être pourriez-vous simplement ajouter une explication / lien pour le fait que l'énoncé que nous sommons 𝑛 matrices, chacune ayant un rang de 1 ? Merci!

Matifou

10

Lorsque vous regardez la situation dans le bon sens, la conclusion est intuitivement évidente et immédiate.

Ce billet propose deux démonstrations. Le premier, juste en dessous, est en mots. Il équivaut à un simple dessin, apparaissant à la toute fin. Entre les deux, une explication de la signification des mots et du dessin.

La matrice de covariance pour observations à variables est une matrice calculée en multipliant à gauche une matrice (les données recentrées) par sa transposition . Ce produit de matrices envoie des vecteurs à travers un pipeline d'espaces vectoriels dans lesquels les dimensions sont et . Par conséquent , la matrice de covariance, en tant linéaire transformation, enverra dans un sous - espace dont la dimension est au plus . $n$ $p$ $p\times p$ $\mathbb{X}_{np}$ $\mathbb{X}_{pn}^\prime$ $p$ $n$ $\mathbb{R}^n$ $\min(p,n)$ Il est immédiat que le rang de la matrice de covariance n'est pas supérieur à . $\min(p,n)$ Par conséquent, si alors le rang est au plus , ce qui - étant strictement inférieur à signifie que la matrice de covariance est singulière. $p\gt n$ $n$ $p$

Toute cette terminologie est entièrement expliquée dans la suite de cet article.

(Comme Amoeba l'a gentiment souligné dans un commentaire maintenant supprimé, et le montre dans une réponse à une question connexe , l'image de se trouve en fait dans un sous-espace codimensionnel de (composé de vecteurs dont les composantes totalisent zéro) parce que son les colonnes ont toutes été recentrées à zéro. Par conséquent, le rang de la matrice de covariance de l'échantillon $\mathbb X$ $\mathbb{R}^n$ ne peut pas dépasser) $\frac{1}{n-1}\mathbb{X}^\prime \mathbb{X}$ $n-1$

L'algèbre linéaire consiste à suivre les dimensions des espaces vectoriels. Il suffit d'apprécier quelques concepts fondamentaux pour avoir une intuition profonde des assertions sur le rang et la singularité:

La multiplication matricielle représente les transformations linéaires des vecteurs. Une matrice représente une transformation linéaire d'un espace à dimensions en un espace à dimensions . Plus précisément, il envoie tout à . Le fait qu'il s'agisse d'une transformation linéaire découle immédiatement de la définition de la transformation linéaire et des propriétés arithmétiques de base de la multiplication matricielle. $m\times n$ $\mathbb{M}$ $n$ $V^n$ $m$ $V^m$ $x\in V^n$ $\mathbb{M}x = y \in V^m$
Les transformations linéaires ne peuvent jamais augmenter les dimensions. Cela signifie que l'image de tout l'espace vectoriel sous la transformation (qui est un espace sous-vectoriel de ) peut avoir une dimension non supérieure à . Il s'agit d'un théorème (facile) qui découle de la définition de la dimension. $V^n$ $\mathbb M$ $V^m$ $n$
La dimension d'un espace sous-vectoriel ne peut pas dépasser celle de l'espace dans lequel il se trouve. C'est un théorème, mais encore une fois, il est évident et facile à prouver.
Le rang d'une transformation linéaire est la dimension de son image. Le rang d'une matrice est le rang de la transformation linéaire qu'elle représente. Ce sont des définitions.
Une matrice singulière a un rang strictement inférieur à $\mathbb{M}_{mn}$ $n$ (la dimension de son domaine). En d'autres termes, son image a une dimension plus petite. Ceci est une définition.

Pour développer l'intuition, il permet de voir les dimensions. Je vais donc écrire les dimensions de tous les vecteurs et matrices immédiatement après, comme dans et . Ainsi, la formule générique $\mathbb{M}_{mn}$ $x_n$

y_{m} = M_{m n} x_{n}

$y_m = \mathbb{M}_{mn} x_n$

signifie que la matrice , lorsqu'elle est appliquée au vecteur , produit un vecteur . $m\times n$ $\mathbb M$ $n$ $x$ $m$ $y$

Les produits des matrices peuvent être considérés comme un «pipeline» de transformations linéaires. Génériquement, supposons est un vecteur de dimension résultant des applications successives de la transformation linéaire et la -vector provenant de l'espace . Cela prend le vecteur successivement à travers un ensemble d'espaces vectoriels de dimensions $y_a$ $a$ $\mathbb{M}_{mn}, \mathbb{L}_{lm}, \ldots, \mathbb{B}_{bc},$ $\mathbb{A}_{ab}$ $n$ $x_n$ $V^n$ $x_n$ et enfin . $m, l, \ldots, c, b,$ $a$

Recherchez le goulot d'étranglement : parce que les dimensions ne peuvent pas augmenter (point 2) et que les sous-espaces ne peuvent pas avoir des dimensions plus grandes que les espaces dans lesquels ils se trouvent (point 3), il s'ensuit que la dimension de l'image de ne peut pas dépasser la plus petite dimension rencontrés dans le pipeline. $V^n$ $\min(a,b,c,\ldots,l,m,n)$

Ce schéma du pipeline prouve alors pleinement le résultat lorsqu'il est appliqué au produit : $\mathbb{X}^\prime \mathbb{X}$

whuber
la source

Pourquoi une matrice de covariance d'échantillon est-elle singulière lorsque la taille de l'échantillon est inférieure au nombre de variables?

Réponses: