Conditions suffisantes et nécessaires pour une valeur propre nulle d'une matrice de corrélation

11

Étant donné variable aléatoire , avec une distribution de probabilité , la matrice de corrélation est positive semi-définie, c'est-à-dire ses valeurs propres sont positifs ou nuls.nXiP(X1,,Xn)Cij=E[XiXj]E[Xi]E[Xj]

Je m'intéresse aux conditions sur qui sont nécessaires et / ou suffisantes pour que ait valeurs propres nulles. Par exemple, une condition suffisante est que les variables aléatoires ne soient pas indépendantes: pour certains nombres réels . Par exemple, si , alors \ vec u = (1, -1,0, \ ldots, 0) est un vecteur propre de C avec une valeur propre nulle. Si nous avons m contraintes linéaires indépendantes sur les X_i de ce type, cela impliquerait m valeurs propres nulles.PCmiuiXi=0uiP(X1,,Xn)=δ(X1X2)p(X2,,Xn)u=(1,1,0,,0)CmXim

Il y a au moins une possibilité supplémentaire (mais triviale), lorsque Xa=E[Xa] pour certains a (c'est-à-dire P(X1,,Xn)δ(XaE[Xa]) ), car en cela le cas Cij a une colonne et une ligne de zéros: Cia=Cai=0,i . Comme ce n'est pas vraiment intéressant, je suppose que la distribution de probabilité n'est pas de cette forme.

Ma question est: les contraintes linéaires sont-elles le seul moyen d'induire des valeurs propres nulles (si nous interdisons l'exception triviale donnée ci-dessus), ou les contraintes non linéaires sur les variables aléatoires peuvent-elles également générer des valeurs propres nulles de C ?

Adam
la source
1
Par définition, une collection de vecteurs qui inclut le vecteur zéro dépend linéairement, donc votre possibilité supplémentaire n'est ni nouvelle ni différente. Pourriez - vous expliquer ce que vous s'il vous plaît dire par « ayant une valeur propre »? Cela ressemble à une sorte d'erreur typographique. m
whuber
@whuber: oui, faute de frappe. Corrigée. Je pense que les deux conditions sont différentes: l'une concerne la relation entre les variables, tandis que l'autre concerne la probabilité d'une seule variable (à savoir ). p(Xa)=δ(XaE(Xa))
Adam
La formulation de votre question prête à confusion. Il ressemble à un théorème élémentaire d'algèbre linéaire, mais les références à des variables aléatoires "indépendantes" suggèrent qu'il pourrait s'agir d'autre chose. Serait-il correct de comprendre que chaque fois que vous utilisez "indépendant", vous entendez au sens d'indépendance linéaire et non au sens de variables aléatoires (statistiquement) indépendantes? Votre référence aux «données manquantes» est encore plus confuse, car elle suggère que vos «variables aléatoires» pourraient réellement signifier uniquement des colonnes d'une matrice de données. Il serait bon de voir ces significations clarifiées.
whuber
@whuber: J'ai édité la question. J'espère que c'est plus clair.
Adam
La condition d'indépendance n'a pas nécessairement besoin d'être nulle (n'importe quelle constante fera l'affaire), à ​​moins que la moyenne de chaque soit nulle. X iiuiXi=0Xi
Sextus Empiricus

Réponses:

6

Peut-être qu'en simplifiant la notation, nous pouvons faire ressortir les idées essentielles. Il s'avère que nous n'avons pas besoin d'impliquer des attentes ou des formules compliquées, car tout est purement algébrique.


La nature algébrique des objets mathématiques

La question concerne les relations entre (1) la matrice de covariance d'un ensemble fini de variables aléatoires et (2) les relations linéaires entre ces variables, considérées comme des vecteurs .X1,,Xn

L'espace vectoriel en question est l'ensemble de toutes les variables aléatoires à variance finie (sur tout espace de probabilité donné ) modulo le sous-espace de variables presque sûrement constantes, noté (Autrement dit, nous considérons deux variables aléatoires et comme étant le même vecteur lorsqu'il n'y a aucune chance que diffère de son attente.) Nous ne traitons que du vecteur de dimension finie l'espace généré par le ce qui en fait un problème algébrique plutôt qu'analytique.L 2 ( Ω , P ) / R . X Y X - Y V X i ,(Ω,P)L2(Ω,P)/R.XYXYVXi,

Ce que nous devons savoir sur les écarts

V est plus qu'un simple espace vectoriel: c'est un module quadratique, car il est équipé de la variance. Tout ce que nous devons savoir sur les écarts, ce sont deux choses:

  1. La variance est une fonction scalaire avec la propriété que pour tous les vecteursQ ( a X ) = a 2 Q ( X ) X .QQ(aX)=a2Q(X)X.

  2. La variance est non dégénérée.

Le second a besoin d'explications. détermine un «produit scalaire», qui est une forme bilinéaire symétrique donnée parQ

XY=14(Q(X+Y)Q(XY)).

(Ce n'est bien sûr rien d'autre que la covariance des variables et ) Les vecteurs et sont orthogonaux lorsque leur produit scalaire est Le complément orthogonal de tout ensemble de vecteurs compose de tous les vecteurs orthogonaux à chaque élément de écritY . X Y 0. AV A ,XY.XY0.AVA,

A0={vVa.v=0 for all vV}.

Il s'agit clairement d'un espace vectoriel. Lorsque , est non dégénéré.QV0={0}Q

Permettez-moi de prouver que la variance est effectivement non dégénérée, même si cela peut sembler évident. Supposons que est un élément non nul de Cela signifie pour tous lesde manière équivalente,V 0 . X Y = 0 Y V ;XV0.XY=0YV;

Q(X+Y)=Q(XY)

pour tous les vecteurs Prendre donneY = XY.Y=X

4Q(X)=Q(2X)=Q(X+X)=Q(XX)=Q(0)=0

et donc Cependant, nous savons (en utilisant peut-être l'inégalité de Chebyshev) que les seules variables aléatoires avec une variance nulle sont presque sûrement constantes, ce qui les identifie avec le vecteur zéro dans QED.V ,Q(X)=0.V,

Interpréter les questions

Pour en revenir aux questions, dans la notation précédente, la matrice de covariance des variables aléatoires n'est qu'un tableau régulier de tous leurs produits scalaires,

T=(XiXj).

Il y a une bonne façon de penser à : il définit une transformation linéaire sur de la manière habituelle, en envoyant n'importe quel vecteur dans le vecteur dont la composante est donnée par la règle de multiplication matricielleR n x = ( x 1 , , x n ) R n T ( x ) = y = ( y 1 , , x n ) i thTRnx=(x1,,xn)RnT(x)=y=(y1,,xn)ith

yi=j=1n(XiXj)xj.

Le noyau de cette transformation linéaire est le sous-espace qu'il envoie à zéro:

Ker(T)={xRnT(x)=0}.

L'équation précédente implique que lorsque pour chaqueixKer(T),i

0=yi=j=1n(XiXj)xj=Xi(jxjXj).

Comme cela est vrai pour chaque il en va de même pour tous les vecteurs couverts par le : à savoir, lui-même. Par conséquent, lorsque le vecteur donné par se trouve dans Parce que la variance n'est pas dégénérée, cela signifie Autrement dit, décrit une dépendance linéaire entre les variables aléatoires d'origine.X i V x Ker ( T ) , j x j X j V 0 . j x j X j = 0. x ni,XiVxKer(T),jxjXjV0.jxjXj=0.xn

Vous pouvez facilement vérifier que cette chaîne de raisonnement est réversible:

Les dépendances linéaires entre les tant que vecteurs sont en correspondance biunivoque avec les éléments du noyau de T .Xj T.

(Rappelez-vous, cette instruction considère toujours le comme défini jusqu'à un décalage constant de l'emplacement - c'est-à-dire comme des éléments de plutôt que comme juste des variables aléatoires.)L 2 ( Ω , P ) / RXjL2(Ω,P)/R

Enfin, par définition, une valeur propre de est tout scalaire pour lequel il existe un vecteur non nul avec Lorsque est une valeur propre, l'espace des vecteurs propres associés est (évidemment) le noyau deλ x T ( x ) = λ x . λ = 0 T .TλxT(x)=λx.λ=0T.


Résumé

Nous sommes arrivés à la réponse aux questions: l'ensemble des dépendances linéaires des variables aléatoires, qua éléments de correspond un à un avec le noyau de leur matrice de covariance Il en est ainsi parce que la variance est une forme quadratique non dégénérée. Le noyau est également l'espace propre associé à la valeur propre nulle (ou simplement le sous-espace zéro lorsqu'il n'y a pas de valeur propre nulle).T.L2(Ω,P)/R,T.


Référence

J'ai largement adopté la notation et une partie du langage du chapitre IV dans

Jean-Pierre Serre, un cours d'arithmétique. Springer-Verlag 1973.

whuber
la source
Whoa, c'est génial! Juste une question pour être sûr de tout comprendre: quand vous écrivez " comme vecteurs", vous ne voulez pas dire collecter les variables aléatoires dans un vecteur (ie ), ou vous? Si j'ai raison, je suppose que vous collectez les valeurs possibles de la variable aléatoire dans un vecteur, tandis que la distribution de probabilité est cachée dans la définition de la variance, non? X = ( X 1 , , X n ) X iXjX=(X1,,Xn)Xi
Adam
Je pense que l'aspect principal qui n'est pas tout à fait clair est le suivant (qui pourrait simplement montrer mon manque de connaissance formelle de la théorie des probabilités): vous semblez montrer que s'il y a une valeur propre de 0, alors nous avons par exemple . Cette contrainte ne fait pas référence à la distribution de probabilité , qui est cachée dans (je pense que c'est le point intelligent de cette démonstration). Mais qu'est-ce que cela signifie d'avoir sans référence à ? Ou cela implique-t-il simplement que , mais comment savoir alors que ce doit être une combinaison linéaire de et dans la fonction delta ? P Q X 1 = XX1=X2PQ P P δ ( X 1 - X 2 ) X 1 X 2X1=X2PPδ(X1X2)X1X2
Adam
J'ai bien peur de ne pas comprendre votre utilisation d'une "fonction delta" dans ce contexte, Adam. C'est en partie parce que je n'en vois pas la nécessité et en partie parce que la notation est ambiguë: serait-ce un delta de Kronecker ou un delta de Dirac, par exemple?
whuber
Ce serait un Kronecker ou un Dirac selon les variables (discrètes ou continues). Ces deltas pourraient faire partie de la mesure d'intégration, par exemple matrices 2 par 2 (donc quatre variables réelles , , et , avec un certain poids (disons ), ou je m'intègre sur un sous-groupe. S'il s'agit de matrices symétriques (impliquant par exemple ), je peux formellement l'imposer en multipliant par . Ce serait une contrainte linéaire Un exemple de contrainte non linéaire est donné dans les commentaires ci-dessous la réponse de Martijn WeteringsX 1MX1X 3 X 4 P = exp ( - t r ( M . M T ) ) X 2 = X 3 P δ ( X 1 - X 2 )X2X3X4P=exp(tr(M.MT))X2=X3Pδ(X1X2)
Adam
(suite) La question est: que peut des contraintes non linéaires que je peux ajouter à mes variables peut induire une valeur propre 0. D'après vos réponses, cela semble être: uniquement une contrainte non linéaire qui implique une contrainte linéaire (comme illustré dans les commentaires ci-dessous la réponse de Martijn Weterings). Peut-être que le problème est que ma façon de penser le problème est du point de vue du physicien, et j'ai du mal à l'expliquer dans une langue différente (je pense que c'est le bon endroit pour poser cette question, pas de physique.SE).
Adam
5

L'indépendance linéaire est non seulement suffisante mais également une condition nécessaire

Pour montrer que la matrice de variance-covariance a des valeurs propres égales à zéro si et seulement si les variables ne sont pas linéairement indépendantes, il ne reste plus qu'à montrer que "si la matrice a des valeurs propres égales à zéro alors les variables ne sont pas linéairement indépendantes".

Si vous avez une valeur propre nulle pour il existe une combinaison linéaire (définie par le vecteur propre )vCij=Cov(Xi,Xj)v

Y=i=1nvi(Xi)

tel que

Cov(Y,Y)=i=1nj=1nvivjCov(Xi,Xj)=i=1nvij=1nvjCij=i=1nvi0=0

ce qui signifie que doit être une constante et donc les variables doivent s'additionner à une constante et sont soit des constantes elles-mêmes (le cas trivial) ou non linéairement indépendantes.X iYXi

- la première ligne de l'équation avec est due à la propriété de covarianceCov ( a U + b V , c W + d X ) = a cCov(Y,Y)

Cov(aU+bV,cW+dX)=acCov(U,W)+bcCov(V,W)+adCov(U,X)+bdCov(V,X)

- le pas de la deuxième à la troisième ligne est dû à la propriété d'une valeur propre nulle

j=1nvjCij=0


Contraintes non linéaires

Ainsi, puisque les contraintes linéaires sont une condition nécessaire (pas seulement suffisante), les contraintes non linéaires ne seront pertinentes que lorsqu'elles impliquent indirectement une contrainte linéaire (nécessaire).

En effet, il existe une correspondance directe entre les vecteurs propres associés à la valeur propre nulle et les contraintes linéaires.

Cv=0Y=i=1nviXi=const

Ainsi, les contraintes non linéaires conduisant à une valeur propre nulle doivent, combinées ensemble, générer une certaine contrainte linéaire.


Comment les contraintes non linéaires peuvent-elles conduire à des contraintes linéaires

Votre exemple dans les commentaires peut montrer intuitivement comment les contraintes non linéaires peuvent conduire à des contraintes linéaires en inversant la dérivation. Les contraintes non linéaires suivantes

a2+b2=1c2+d2=1ac+bd=0adbc=1

peut être réduit à

a2+b2=1c2+d2=1ad=0b+c=0

Vous pouvez inverser cela. Supposons que vous ayez des contraintes non linéaires et linéaires, alors il n'est pas étrange d'imaginer comment nous pouvons remplacer l'une des contraintes linéaires par une contrainte non linéaire, en remplissant les contraintes linéaires dans les contraintes non linéaires. Par exemple, lorsque nous substituons et sous la forme non linéaire vous pouvez alors établir une autre relation . Et lorsque vous multipliez et vous obtenez .a=db=ca2+b2=1adbc=1a=dc=bac=bd

Sextus Empiricus
la source
Je suppose que cela (et la réponse par whuber) est une réponse indirecte à ma question (qui était: "la dépendance linéaire est-elle le seul moyen d'obtenir une valeur propre nulle") de cette manière: même si la dépendance entre les variables aléatoires est non linéaire, il peut toujours être réécrit comme une dépendance linéaire en écrivant simplement . Bien que je cherchais vraiment un moyen de caractériser les éventuelles contraintes non linéaires elles-mêmes, je suppose que c'est néanmoins un résultat utile. Y=iνiXi
Adam
Oui, je sais ... ce que je dis c'est que s'il y a une dépendance non linéaire et qu'il y a une valeur propre nulle, alors d'après votre réponse, cela signifie que la dépendance non linéaire peut être "factorisée" d'une manière ou d'une autre dans une dépendance linéaire. C'est une version plus faible de ce que je cherchais, mais toujours quelque chose.
Adam
Vous donnez un exemple qui ne fonctionne pas, ce qui ne veut pas dire que cela ne peut pas être le cas ...
Adam
Voici un contre-exemple de ce que vous dites (si vous pensez que ce n'est pas le cas, cela pourrait nous aider à trouver ce qui ne va pas dans ma formulation du problème :)): Prenez une matrice aléatoire 2 par 2 , avec le contrainte non linéaire et . Ces 3 contraintes non linéaires peuvent être réécrites en termes de 2 contraintes linéaires, et une linéaire: ce qui signifie que la matrice de covariance a deux vecteurs propres 0. Supprimez la contrainte , et elles disparaissent. MM.MT=1detM=1detM=1
Adam
M11=X1 , , et . Les contraintes sont , , (seuls deux sont indépendants). Ils n'impliquent pas une valeur propre nulle. Cependant, l'ajout de implique deux vecteurs propres avec 0 valeurs propres. M12=X2M21=X3M22=X4X12+X22=1X32+X42=1X1X3+X2X4=0X1X4X2X3=1
Adam
2

Supposons que ait un vecteur propre avec la valeur propre correspondante , alors . Ainsi, par l'inégalité de Chebyshev, est presque sûrement constant et égal à . C'est-à-dire que chaque valeur propre nulle correspond à une restriction linéaire, à savoir . Il n'est pas nécessaire de considérer des cas particuliers.v 0 var ( v T X ) = v T C v = 0 v T X v T E [ X ] v T X = v T E [ X ]Cv0var(vTX)=vTCv=0vTXvTE[X]vTX=vTE[X]

Ainsi, nous concluons:

"Les contraintes linéaires sont-elles le seul moyen d'induire des valeurs propres nulles [?]"

Oui.

"les contraintes non linéaires sur les variables aléatoires peuvent-elles également générer des valeurs propres nulles de C?"

Oui, s'ils impliquent des contraintes linéaires.

ekvall
la source
Je suis d'accord. J'espérais que l'on pourrait être plus précis sur le type de contraintes non linéaires, mais je suppose qu'il est difficile de faire mieux si nous ne spécifions pas les contraintes.
Adam
2

La marix de covariance de est symétrique, vous pouvez donc la diagnostiquer comme , avec les valeurs propres dans la matrice diagonaleEn réécrivant ceci comme , la rhs est la matrice de covariance de , donc zéro valeur propre sur les lhs correspond à des combinaisons linéaires de avec des distributions dégénérées.X C = Q Λ Q T Λ . Λ = Q T C Q Q T X XCXC=QΛQTΛ.Λ=QTCQQTXX

Hasse1987
la source
C'est une très belle description concise, mais comment pourrions-nous rendre plus intuitive que ? QTCQ=cov(QTX)
Sextus Empiricus