Étant donné variable aléatoire , avec une distribution de probabilité , la matrice de corrélation est positive semi-définie, c'est-à-dire ses valeurs propres sont positifs ou nuls.
Je m'intéresse aux conditions sur qui sont nécessaires et / ou suffisantes pour que ait valeurs propres nulles. Par exemple, une condition suffisante est que les variables aléatoires ne soient pas indépendantes: pour certains nombres réels . Par exemple, si , alors \ vec u = (1, -1,0, \ ldots, 0) est un vecteur propre de C avec une valeur propre nulle. Si nous avons m contraintes linéaires indépendantes sur les X_i de ce type, cela impliquerait m valeurs propres nulles.
Il y a au moins une possibilité supplémentaire (mais triviale), lorsque pour certains (c'est-à-dire ), car en cela le cas a une colonne et une ligne de zéros: . Comme ce n'est pas vraiment intéressant, je suppose que la distribution de probabilité n'est pas de cette forme.
Ma question est: les contraintes linéaires sont-elles le seul moyen d'induire des valeurs propres nulles (si nous interdisons l'exception triviale donnée ci-dessus), ou les contraintes non linéaires sur les variables aléatoires peuvent-elles également générer des valeurs propres nulles de ?
la source
Réponses:
Peut-être qu'en simplifiant la notation, nous pouvons faire ressortir les idées essentielles. Il s'avère que nous n'avons pas besoin d'impliquer des attentes ou des formules compliquées, car tout est purement algébrique.
La nature algébrique des objets mathématiques
La question concerne les relations entre (1) la matrice de covariance d'un ensemble fini de variables aléatoires et (2) les relations linéaires entre ces variables, considérées comme des vecteurs .X1, … , Xn
L'espace vectoriel en question est l'ensemble de toutes les variables aléatoires à variance finie (sur tout espace de probabilité donné ) modulo le sous-espace de variables presque sûrement constantes, noté (Autrement dit, nous considérons deux variables aléatoires et comme étant le même vecteur lorsqu'il n'y a aucune chance que diffère de son attente.) Nous ne traitons que du vecteur de dimension finie l'espace généré par le ce qui en fait un problème algébrique plutôt qu'analytique.L 2 ( Ω , P ) / R . X Y X - Y V X i ,( Ω , P ) L2( Ω , P ) / R . X Oui X- Oui V Xje,
Ce que nous devons savoir sur les écarts
La variance est une fonction scalaire avec la propriété que pour tous les vecteursQ ( a X ) = a 2 Q ( X ) X .Q Q ( a X) = a2Q ( X) X.
La variance est non dégénérée.
Le second a besoin d'explications. détermine un «produit scalaire», qui est une forme bilinéaire symétrique donnée parQ
(Ce n'est bien sûr rien d'autre que la covariance des variables et ) Les vecteurs et sont orthogonaux lorsque leur produit scalaire est Le complément orthogonal de tout ensemble de vecteurs compose de tous les vecteurs orthogonaux à chaque élément de écritY . X Y 0. A ⊂ V A ,X Oui. X Oui 0. UNE⊂ V UNE,
Il s'agit clairement d'un espace vectoriel. Lorsque , est non dégénéré.QV0={0} Q
Permettez-moi de prouver que la variance est effectivement non dégénérée, même si cela peut sembler évident. Supposons que est un élément non nul de Cela signifie pour tous lesde manière équivalente,V 0 . X ⋅ Y = 0 Y ∈ V ;X V0. X⋅Y= 0 Oui∈ V;
pour tous les vecteurs Prendre donneY = XOui. Oui= X
et donc Cependant, nous savons (en utilisant peut-être l'inégalité de Chebyshev) que les seules variables aléatoires avec une variance nulle sont presque sûrement constantes, ce qui les identifie avec le vecteur zéro dans QED.V ,Q(X)=0. V,
Interpréter les questions
Pour en revenir aux questions, dans la notation précédente, la matrice de covariance des variables aléatoires n'est qu'un tableau régulier de tous leurs produits scalaires,
Il y a une bonne façon de penser à : il définit une transformation linéaire sur de la manière habituelle, en envoyant n'importe quel vecteur dans le vecteur dont la composante est donnée par la règle de multiplication matricielleR n x = ( x 1 , … , x n ) ∈ R n T ( x ) = y = ( y 1 , … , x n ) i thT Rn x=(x1,…,xn)∈Rn T(x)=y=(y1,…,xn) ith
Le noyau de cette transformation linéaire est le sous-espace qu'il envoie à zéro:
L'équation précédente implique que lorsque pour chaqueix∈Ker(T), i
Comme cela est vrai pour chaque il en va de même pour tous les vecteurs couverts par le : à savoir, lui-même. Par conséquent, lorsque le vecteur donné par se trouve dans Parce que la variance n'est pas dégénérée, cela signifie Autrement dit, décrit une dépendance linéaire entre les variables aléatoires d'origine.X i V x ∈ Ker ( T ) , ∑ j x j X j V 0 . ∑ j x j X j = 0. x ni, Xi V x∈Ker(T), ∑jxjXj V0. ∑jxjXj=0. x n
Vous pouvez facilement vérifier que cette chaîne de raisonnement est réversible:
(Rappelez-vous, cette instruction considère toujours le comme défini jusqu'à un décalage constant de l'emplacement - c'est-à-dire comme des éléments de plutôt que comme juste des variables aléatoires.)L 2 ( Ω , P ) / RXj L2(Ω,P)/R
Enfin, par définition, une valeur propre de est tout scalaire pour lequel il existe un vecteur non nul avec Lorsque est une valeur propre, l'espace des vecteurs propres associés est (évidemment) le noyau deλ x T ( x ) = λ x . λ = 0 T .T λ x T(x)=λx. λ=0 T.
Résumé
Nous sommes arrivés à la réponse aux questions: l'ensemble des dépendances linéaires des variables aléatoires, qua éléments de correspond un à un avec le noyau de leur matrice de covariance Il en est ainsi parce que la variance est une forme quadratique non dégénérée. Le noyau est également l'espace propre associé à la valeur propre nulle (ou simplement le sous-espace zéro lorsqu'il n'y a pas de valeur propre nulle).T.L2(Ω,P)/R, T.
Référence
J'ai largement adopté la notation et une partie du langage du chapitre IV dans
Jean-Pierre Serre, un cours d'arithmétique. Springer-Verlag 1973.
la source
L'indépendance linéaire est non seulement suffisante mais également une condition nécessaire
Pour montrer que la matrice de variance-covariance a des valeurs propres égales à zéro si et seulement si les variables ne sont pas linéairement indépendantes, il ne reste plus qu'à montrer que "si la matrice a des valeurs propres égales à zéro alors les variables ne sont pas linéairement indépendantes".
Si vous avez une valeur propre nulle pour il existe une combinaison linéaire (définie par le vecteur propre )vCij=Cov(Xi,Xj) v
tel que
ce qui signifie que doit être une constante et donc les variables doivent s'additionner à une constante et sont soit des constantes elles-mêmes (le cas trivial) ou non linéairement indépendantes.X iY Xi
- la première ligne de l'équation avec est due à la propriété de covarianceCov ( a U + b V , c W + d X ) = a cCov(Y,Y) Cov(aU+bV,cW+dX)=acCov(U,W)+bcCov(V,W)+adCov(U,X)+bdCov(V,X)
- le pas de la deuxième à la troisième ligne est dû à la propriété d'une valeur propre nulle∑j=1nvjCij=0
Contraintes non linéaires
Ainsi, puisque les contraintes linéaires sont une condition nécessaire (pas seulement suffisante), les contraintes non linéaires ne seront pertinentes que lorsqu'elles impliquent indirectement une contrainte linéaire (nécessaire).
En effet, il existe une correspondance directe entre les vecteurs propres associés à la valeur propre nulle et les contraintes linéaires.
Ainsi, les contraintes non linéaires conduisant à une valeur propre nulle doivent, combinées ensemble, générer une certaine contrainte linéaire.
Comment les contraintes non linéaires peuvent-elles conduire à des contraintes linéaires
Votre exemple dans les commentaires peut montrer intuitivement comment les contraintes non linéaires peuvent conduire à des contraintes linéaires en inversant la dérivation. Les contraintes non linéaires suivantes
peut être réduit à
Vous pouvez inverser cela. Supposons que vous ayez des contraintes non linéaires et linéaires, alors il n'est pas étrange d'imaginer comment nous pouvons remplacer l'une des contraintes linéaires par une contrainte non linéaire, en remplissant les contraintes linéaires dans les contraintes non linéaires. Par exemple, lorsque nous substituons et sous la forme non linéaire vous pouvez alors établir une autre relation . Et lorsque vous multipliez et vous obtenez .a=d b=−c a2+b2=1 ad−bc=1 a=d c=−b ac=−bd
la source
Supposons que ait un vecteur propre avec la valeur propre correspondante , alors . Ainsi, par l'inégalité de Chebyshev, est presque sûrement constant et égal à . C'est-à-dire que chaque valeur propre nulle correspond à une restriction linéaire, à savoir . Il n'est pas nécessaire de considérer des cas particuliers.v 0 var ( v T X ) = v T C v = 0 v T X v T E [ X ] v T X = v T E [ X ]C v 0 var(vTX)=vTCv=0 vTX vTE[X] vTX=vTE[X]
Ainsi, nous concluons:
"Les contraintes linéaires sont-elles le seul moyen d'induire des valeurs propres nulles [?]"
Oui.
"les contraintes non linéaires sur les variables aléatoires peuvent-elles également générer des valeurs propres nulles de C?"
Oui, s'ils impliquent des contraintes linéaires.
la source
La marix de covariance de est symétrique, vous pouvez donc la diagnostiquer comme , avec les valeurs propres dans la matrice diagonaleEn réécrivant ceci comme , la rhs est la matrice de covariance de , donc zéro valeur propre sur les lhs correspond à des combinaisons linéaires de avec des distributions dégénérées.X C = Q Λ Q T Λ . Λ = Q T C Q Q T X XC X C=QΛQT Λ. Λ=QTCQ QTX X
la source