Mesure appropriée pour trouver la plus petite matrice de covariance

10

Dans le manuel que je lis, ils utilisent le caractère définitif positif (caractère semi-positif) pour comparer deux matrices de covariance. L'idée étant que si est pd alors est plus petite que . Mais j'ai du mal à avoir l'intuition de cette relation?ABBA

Il y a un fil similaire ici:

/math/239166/what-is-the-intuition-for-using-definiteness-to-compare-matrices

Quelle est l'intuition d'utiliser le caractère définitif pour comparer des matrices?

Bien que les réponses soient agréables, elles ne répondent pas vraiment à l'intuition.

Voici un exemple que je trouve déroutant:

[1612129][1224]

maintenant ici le déterminant de la différence est -25 donc la relation n'est pas pd ou même psd et donc la première matrice n'est pas supérieure à la première?

Je veux simplement comparer deux matrices de covariance 3 * 3 pour voir laquelle est la plus petite? Il me semblerait plus intuitif d'utiliser quelque chose comme la norme euclidienne pour les comparer? Cependant, cela signifierait que la première matrice ci-dessus est supérieure au deuxième matix. De plus, je ne vois que le critère pd / psd utilisé pour comparer les matrices de covariance.

Quelqu'un peut-il expliquer pourquoi pd / psd est meilleur que d'utiliser une autre mesure telle que la norme euclidienne?

J'ai également posté cette question sur le forum mathématique (je ne savais pas ce qui était le mieux), j'espère que cela ne contrevient à aucune règle.

/math/628135/comparing-two-covariance-matrices

Baz
la source
2
Vous voudrez peut-être lire ceci où l'intuition derrière la (semi) définition définitive est considérée. Lorsque vous comparez 2 variances aet b, s'il a-best positif, nous dirions que, après avoir retiré la variabilité b, ail reste une certaine "réelle" variabilité a. Il en va de même pour les variances multivariées (= matrices de covariance) Aet B. Si A-Best défini positif, cela signifie que la A-Bconfiguration des vecteurs est "réelle" dans l'espace euclidien: en d'autres termes, lors de la suppression Bde A, ce dernier est toujours une variabilité viable.
ttnphns
2
Qu'entendez- vous par la "plus petite" des deux matrices de covariance?
whuber
Salut whuber, les matrices de covariance se rapportent à des estimateurs concurrents, je souhaite sélectionner l'estimateur qui a la plus petite variance. (Est-ce que cela clarifie les choses?)
Baz
2
Baz: Alors pourquoi ne pas comparer directement les variances des estimateurs?
Glen_b -Reinstate Monica
Salut, la méthode est définie, l'expression de ce qu'ils appellent la variance (qui inclut les covariances) est donnée. Cependant, même si je ne comparais que les variances, cela impliquerait toujours de comparer les valeurs vectorielles qui auront des problèmes similaires à la comparaison des valeurs matricielles?
Baz

Réponses:

8

L'ordre des matrices auquel vous faites référence est connu sous le nom d' ordre de Loewner et est un ordre partiel très utilisé dans l'étude des matrices définies positives. Un traitement de la géométrie sur la variété de matrices positives-définies (posdef) est ici .

Je vais d'abord essayer de répondre à votre question sur les intuitions . Une matrice (symétrique) A est posdef si cTAc0 pour tout cRn . Si X est une variable aléatoire (rv) avec une matrice de covariance A , alors cTX est (proportionnelle à) sa projection sur un sous-espace unidim, et Var(cTX)=cTAc . Appliquer cela à ABdans votre Q, la première: elle est une matrice de covariance, deuxième: Une variable aléatoire avec une matrice COVARIANCE B projets dans toutes les directions avec une variance inférieure à une va de la matrice de covariance A . Cela rend intuitivement clair que cet ordre ne peut être que partiel, il existe de nombreux VR qui se projetteront dans des directions différentes avec des variations très différentes. Votre proposition d'une norme euclidienne n'a pas une telle interprétation statistique naturelle.

Votre "exemple déroutant" est déroutant car les deux matrices ont un déterminant zéro. Donc pour chacun, il y a une direction (le vecteur propre avec la valeur propre zéro) où ils projettent toujours à zéro . Mais cette direction est différente pour les deux matrices, elles ne peuvent donc pas être comparées.

L'ordre de Loewner est défini de telle sorte que AB , B est défini plus positif que A , si BA est posdef. Il s'agit d'un ordre partiel, pour certaines matrices posdef, ni BA ni AB sont posdef. Un exemple est:

A=(10.50.51),B=(0.5001.5)
Une façon de le représenter graphiquement est de tracer un tracé avec deux ellipses, mais centré à l'origine, associé de manière standard aux matrices (alors la distance radiale dans chaque direction est proportionnelle à la variance de projetant dans cette direction):

Deux matrices posdef représentées par des ellipses

Dans ces cas, les deux ellipses sont congruentes, mais tournent différemment (en fait, l'angle est de 45 degrés). Cela correspond au fait que les matrices A et B ont les mêmes valeurs propres, mais les vecteurs propres tournent.

Comme cette réponse dépend beaucoup des propriétés des ellipses, ce qui suit Quelle est l'intuition derrière les distributions gaussiennes conditionnelles? expliquer les ellipses géométriquement peut être utile.

AQA(c)=cTAcABQBQA

QA(c)=1,QB(c)=1
ABABB1A1

2×2a,bλ1,λ2

a=1/λ1,b=1/λ2.
Aπab=π1/λ11/λ2=πdetA

Je vais donner un dernier exemple où les matrices peuvent être commandées:

Deux matrices qui peuvent être commandées tracées sous forme d'ellipses

Dans ce cas, les deux matrices étaient:

A=(2/31/51/53/4),B=(11/71/71)

kjetil b halvorsen
la source
3

@kjetil b halvorsen donne une belle discussion sur l'intuition géométrique derrière la semi-définition positive comme ordre partiel. Je vais donner une vision plus crasseuse de cette même intuition. Celui qui procède des types de calculs que vous aimeriez faire avec vos matrices de variance.

Supposons que vous ayez deux variables aléatoires et . S'ils sont scalaires, alors nous pouvons calculer leurs variances sous forme de scalaires et les comparer de manière évidente en utilisant les nombres réels scalaires et . Donc, si et , nous disons que la variable aléatoire a une variance plus petite que .xyV(x)V(y)V(x)=5V(y)=15xy

D'un autre côté, si et sont des variables aléatoires à valeur vectorielle (disons qu'elles sont à deux vecteurs), la façon dont nous comparons leurs variances n'est pas si évidente. Disons que leurs variances sont: Comment comparer les variances de ces deux vecteurs aléatoires? Une chose que nous pourrions faire est simplement de comparer les variances de leurs éléments respectifs. Donc, nous pouvons dire que la variance de est plus petite que la variance de en comparant simplement les nombres réels, comme: etxy

V(x)=[10.50.51]V(y)=[8336]
x1y1V(x1)=1<8=V(y1)V(x2)=1<6=V(y2). Donc, on pourrait peut-être dire que la variance de est la variance de si la variance de chaque élément de est la variance de l'élément correspondant de . Ce serait comme dire si chacun des éléments diagonaux de est l'élément diagonal correspondant de .xyxyV(x)V(y)V(x)V(y)

Cette définition semble raisonnable à première vue. De plus, tant que les matrices de variance que nous considérons sont diagonales (c'est-à-dire que toutes les covariances sont égales à 0), c'est la même chose que d'utiliser la semi-précision. Autrement dit, si les écarts ressemblent à puis en disant est semi-défini positif (c'est-à-dire que ) est identique à dire et . Tout semble bien jusqu'à ce que nous introduisions des covariances. Considérez cet exemple:

V(x)=[V(x1)00V(x2)]V(y)=[V(y1)00V(y2)]
V(y)V(x)V(x)V(y)V(x1)V(y1)V(x2)V(y2)
V(x)=[10.10.11]V(y)=[1001]
Maintenant, en utilisant une comparaison qui ne considère que les diagonales, nous dirions , et, en effet, il est toujours vrai que élément par élément . Ce qui pourrait nous déranger à ce sujet, c'est que si nous calculons une somme pondérée des éléments des vecteurs, comme et , nous rencontrons alors le fait que même si nous disons .V(x)V(y)V(xk)V(yk)3x1+2x23y1+2y2V(3x1+2x2)>V(3y1+2y2)V(x)V(y)

C'est bizarre, non? Lorsque et sont des scalaires, alors garantit cela pour tout a fixe, non aléatoire , .xyV(x)V(y)aV(ax)V(ay)

Si, pour une raison quelconque, nous sommes intéressés par des combinaisons linéaires des éléments des variables aléatoires comme celle-ci, alors nous pourrions vouloir renforcer notre définition de pour les matrices de variance. Peut-être que nous voulons dire si et seulement s'il est vrai que , peu importe les nombres fixes et nous choisissons. Remarquez, c'est une définition plus forte que la définition des diagonales uniquement car si nous choisissons elle dit , et si nous choisissons elle dit .V(x)V(y)V(a1x1+a2x2)V(a1y1+a2y2)a1a2a1=1,a2=0V(x1)V(y1)a1=0,a2=1V(x2)V(y2)

Cette deuxième définition, celle qui dit si et seulement si pour chaque vecteur fixe possible , est la méthode habituelle de comparaison de la variance matrices basées sur une semi- positive: Regardez la dernière expression et la définition de semi-défini positif pour voir que la définition de pour les matrices de variance est choisie exactement pour garantir que si et seulement si pour tout choix de , c'est-à-dire quand est semi positif -précis.V(x)V(y)V(ax)V(ay)a

V(ay)V(ax)=aV(x)aaV(y)a=a(V(x)V(y))a
V(x)V(y)V(ax)V(ay)a(V(y)V(x))

Donc, la réponse à votre question est que les gens disent qu'une matrice de variance est plus petite qu'une matrice de variance si est semi-définie positive parce qu'ils sont intéressés à comparer les variances des combinaisons linéaires des éléments des vecteurs aléatoires sous-jacents. La définition que vous choisissez suit ce que vous souhaitez calculer et comment cette définition vous aide dans ces calculs.VWWV

Facture
la source