Une mesure de la «variance» de la matrice de covariance?

17

Si les données sont 1d, la variance montre dans quelle mesure les points de données sont différents les uns des autres. Si les données sont multidimensionnelles, nous obtiendrons une matrice de covariance.

Existe-t-il une mesure qui donne un nombre unique de différences entre les points de données les uns des autres en général pour les données multidimensionnelles?

Je pense qu'il pourrait déjà y avoir de nombreuses solutions, mais je ne suis pas sûr du terme correct à utiliser pour les rechercher.

Peut-être que je peux faire quelque chose comme additionner les valeurs propres de la matrice de covariance, est-ce que cela semble raisonnable?

dontloo
la source
2
Déterminant de la matrice de covariance. Je posterai bientôt une réponse plus étoffée.
user603
5
La trace est utilisée très souvent. Par exemple, dans l'ACP, la fraction de variance expliquée par chaque composante est une fraction de la "variance totale" qui est définie comme la trace de la matrice de covariance. @ user603 Dans l'attente de votre réponse.
amibe dit Réintégrer Monica
2
adding up the eigenvalues of the covariance matrixest égal à la trace d'amibe mentionnée ci-dessus.
ttnphns
À quoi servira / était la mesure?
HelloGoodbye
@HelloGoodbye salut en fait, j'ai des données [bruyantes] avec des étiquettes, et je suppose à l'avance que les [vrais] points de données dans la même catégorie ne devraient pas être très différents. Je cherche un moyen de mesurer le degré de différence des points de données au sein de chaque catégorie, afin de pouvoir me faire une idée du niveau de bruit des données pour chaque catégorie.
dontloo

Réponses:

15

(La réponse ci-dessous ne fait qu'introduire et énoncer le théorème prouvé dans [0]. La beauté de cet article est que la plupart des arguments sont faits en termes d'algèbre linéaire de base. Pour répondre à cette question, il suffira d'énoncer les principaux résultats mais par tous les moyens, allez vérifier la source d'origine).

Dans toute situation où le modèle multivarié des données peut être décrit par une distribution elliptique à variables, l'inférence statistique réduira, par définition, le problème de l'ajustement (et de la caractérisation) d'un vecteur de localisation à k variables (disons θ ) et d'un par matrice définie semi-positive symétrique (disons ) aux données. Pour des raisons que j'explique ci-dessous (mais que vous supposez déjà comme prémisses), il sera souvent plus significatif de décomposer en un composant de forme (une matrice SPSD de la même taille quekkθk Σ Σ Σ σ SkkΣΣΣ) tenant compte de la forme des contours de densité de votre distribution multivariée et d'un scalaire exprimant l'échelle de ces contours.σS

Dans les données univariées ( ), , la matrice de covariance de vos données est un scalaire et, comme nous le verrons ci-dessous, la composante de forme de est 1 de sorte que est égal à son composant d'échelle toujours et aucune ambiguïté n'est possible.Σ Σ Σ Σ = σ Sk=1ΣΣΣΣ=σS

Dans les données multivariées, de nombreux choix de fonctions d'échelle sont possibles. Un en particulier ( ) se distingue par une propriété clé souhaitable. Cela devrait en faire le choix préféré du facteur d'échelle dans le contexte des familles elliptiques.σ S = | ΣσSσS=|ΣΣ|1/k


De nombreux problèmes dans les statistiques MV impliquent l'estimation d'une matrice de dispersion, définie comme une fonction (al) symétrique semi-définie définie dans et satisfaisante:R k × kΣRk×k

(0)Σ(AX+b)=AΣ(X)A
(pour matrices non singulières et vecteurs ). Par exemple, l'estimation classique de la covariance satisfait (0) mais elle n'est en aucun cas la seule. bAb

En présence de données réparties elliptiques, où tous les contours de densité sont des ellipses définies par la même matrice de forme, jusqu'à la multiplication par un scalaire, il est naturel de considérer des versions normalisées de de la forme:Σ

VS=Σ/S(Σ)

est une fonction 1-homogène satisfaisant:S

(1)S(λΣ)=λS(Σ)

pour tout . Ensuite, V S est appelé le composant de forme de la matrice de dispersion (dans une matrice de forme courte) et σ S = S 1 / deux ( Σ ) est appelé le composant à l'échelle de la matrice de dispersion. Des exemples de problèmes d'estimation multivariée où la fonction de perte ne dépend que de Σ à travers sa composante de forme V S incluent des tests de sphéricité, PCA et CCA entre autres.λ>0VSσS=S1/2(Σ)ΣVS

Bien sûr, il existe de nombreuses fonctions d'échelle possibles, ce qui laisse toujours ouverte la question de savoir si (le cas échéant) plusieurs choix de fonction de normalisation sont en quelque sorte optimaux. Par exemple:S

  • (par exemple celui proposé par @amoeba dans son commentaire sous la question du PO. Voir aussi [1], [2], [3])S=tr(Σ)/k
  • ([4], [5], [6], [7], [8])S=|Σ|1/k
  • (la première entrée de la matrice de covariance)Σ11
  • (la première valeur propre de Σ )λ1(Σ)Σ

Cependant, est la seule fonction d'échelle pour laquelle la matrice d'informations de Fisher pour les estimations correspondantes d'échelle et de forme, dans des familles localement asymptotiquement normales, est diagonale par blocs (c'est-à-dire que les composantes d'échelle et de forme du problème d'estimation sont asymptotiquement orthogonales) [0 ]. Cela signifie, entre autres, que l'échelle fonctionnelle S = | Σ | 1 / k est le seul choix de S pour lequel la spécification de non σ S ne provoque pas de perte d'efficacité lors de l' exécution sur l' inférence V S .S=|Σ|1/kS=|Σ|1/kSσSVS

Je ne connais aucune caractérisation d'optimalité comparable pour aucun des nombreux choix possibles de qui satisfont (1).S

  • [0] Paindaveine, D., Une définition canonique de la forme, Statistics & Probability Letters, Volume 78, Numéro 14, 1er octobre 2008, Pages 2240-2247. Lien non fermé
  • [1] Dumbgen, L. (1998). Sur la fonction M de Tyler de la dispersion en haute dimension, Ann. Inst. Statist. Math. 50, 471–491.
  • [2] Ollila, E., TP Hettmansperger et H. Oja (2004). Méthodes de signe multivariées équivariées affines. Preprint, Université de Jyvaskyla.
  • [3] Tyler, DE (1983). Propriétés de robustesse et d'efficacité des matrices de diffusion, Biometrika 70, 411–420.
  • [4] Dumbgen, L. et DE Tyler (2005). Sur les propriétés de répartition de certaines fonctions M multivariées, Scand. J. Statist. 32, 247-264.
  • [5] Hallin, M. et D. Paindaveine (2008). Tests optimaux basés sur le rang pour l'homogénéité de la diffusion, Ann. Statist., À paraître.
  • [6] Salibian-Barrera, M., S. Van Aelst et G. Willems (200 6). Analyse en composantes principales basée sur des estimateurs MM multivariés avec bootstrap rapide et robuste, J. Amer. Statist. Assoc. 101, 1198-1211.
  • [7] Taskinen, S., C. Croux, A. Kankainen, E. Ollila et H. O ja (2006). Influencer les fonctions et l'efficacité de la corrélation canonique et des estimations vectorielles basées sur les matrices de dispersion et de forme, J. Multivariate Anal. 97, 359–384.
  • [8] Tatsuoka, KS et DE Tyler (2000). Sur l'unicité des fonctions S et des fonctions M dans les distributions non elliptiques, Ann. Statist. 28, 1219-1243.
user603
la source
1
De plus, est un choix étrange pour le composant d'échelle car il n'est pas invariant en rotation ...Σ11
amibe dit Reinstate Monica
Merci pour la réponse délibérée! cela me prendra un certain temps pour bien le comprendre cependant :)
dontloo
@amoeba: appliqué à XΣ . Je laisse tomber le XXX dans le reste de la réponse car il n'y a pas de confusion possible. Je suis d'accord, c'est un peu maladroit donc j'utilise maintenant Σ ( XXX . Je suis d'accord avec votre deuxième commentaire. De la même manière, λ 1 ( Σ ) n'est pas invariant au redimensionnement. En ce sens, la contrainte d'homogénéité placée sur S est une barre très basse. Σ(XX)λ1(Σ)S
user603
Attendez; pourquoi voudrait-on ou s'attendrait-il à ce que le composant d'échelle soit invariant au redimensionnement ??
amibe dit Réintégrer Monica
Désolé, je voulais dire que si vous utilisez comme fonction de mise à l'échelle, la matrice de forme résultante n'est pas équivalente à la mise à l'échelle. λ1(Σ)
user603
11

La variance d'une variable scalaire est définie comme l'écart quadratique de la variable par rapport à sa moyenne:

Var(X)=E[(XE[X])2]

Une généralisation à une variance à valeur scalaire pour les variables aléatoires à valeur vectorielle peut être obtenue en interprétant l'écart comme la distance euclidienne :

Vars(X)=E[XE[X]22]

Cette expression peut être réécrite en

Vars(X)=E[(XE[X])(XE[X])]=E[i=1n(XiE[Xi])2]=i=1nE[(XiE[Xi])2]=i=1nVar(Xi)=i=1nCjeje

est la matrice de covariance. Enfin, cela peut être simplifié pourC

Vars(X)=tr(C)

qui est la trace de la matrice de covariance.

Bonjour au revoir
la source
4

Bien que la trace de la matrice de covariance, tr (C) , vous donne une mesure de la variance totale, elle ne prend pas en compte la corrélation entre les variables.

Si vous avez besoin d'une mesure de variance globale qui est grande lorsque vos variables sont indépendantes les unes des autres et très petite lorsque les variables sont fortement corrélées, vous pouvez utiliser le déterminant de la matrice de covariance, | C | .

Veuillez consulter cet article pour une meilleure clarification.

Sahar
la source
4

Si vous avez besoin d'un seul nombre, je suggère une plus grande valeur propre d'une matrice de covariance. Il s'agit également d'une variance expliquée de la première composante principale de l'ACP. Il vous indique la variance totale pouvant être expliquée si vous réduisez la dimensionnalité de votre vecteur à un. Voir cette réponse sur math SE.

L'idée est de réduire votre vecteur en une seule dimension en combinant toutes les variables linéairement en une seule série. Vous vous retrouvez avec un problème 1d.

La variance expliquée peut être rapportée en termes de% à la variance totale. Dans ce cas, vous verrez immédiatement s'il y a beaucoup de corrélation linéaire entre les séries. Dans certaines applications, ce nombre peut être supérieur ou égal à 80%, par exemple la modélisation de la courbe des taux d'intérêt en finance. Cela signifie que vous pouvez construire une combinaison linéaire de variables qui explique 80 de variance de toutes les variables.

Aksakal
la source
3

H(X)=-p(X)Journalp(X)X.

p(X)μΣ

H(X)=12Journal((2πe)ndet(Σ))
n

Et cela dépend du déterminant de la matrice de covariance, comme le suggère @ user603.

dontloo
la source
Cette réponse ne semble pas être dans le même esprit que la question. Les covariances et les variances sont des propriétés de toute distribution (bien qu'elles puissent être infinies ou indéfinies dans certains cas), alors que cette réponse se concentre sur un cas extrêmement spécial d'une distribution normale multivariée. Elle ne s'applique donc pas à la plupart des situations implicitement envisagées dans la question. Pourriez-vous peut-être nous expliquer dans quel sens votre réponse pourrait être interprétée comme fournissant des indications utiles dans le cas général où les données ne sont pas nécessairement normales?
whuber
@whuber merci pour la suggestion je suppose que je devrais peut-être réécrire le gaussien comme "la distribution qui maximise l'entropie étant donné une variance"? alors le résultat deviendra une limite supérieure. Qu'est-ce que tu penses?
dontloo
On dirait que ça va dans un endroit utile et plus général.
whuber
1
Je suppose qu'il existe de nombreuses façons d'écorcher un chat;). En fait, je pense que le lien entre votre réponse et la mienne est très fort . J'ai un petit problème; Je pense que le déterminant a une propriété d'optimalité pour le problème que vous essayez de résoudre (et ne doit pas seulement être choisi pour des raisons de familiarité) et je pense que ces propriétés d'optimalité s'étendent au-delà des matrices de covariance (elles valent pour le déterminant de la fonction de dispersion à laquelle vous vous trouvez choisi et il y en a beaucoup) et s'étendent au-delà de la distribution gaussienne (à toute la famille elliptique).
user603