Si les données sont 1d, la variance montre dans quelle mesure les points de données sont différents les uns des autres. Si les données sont multidimensionnelles, nous obtiendrons une matrice de covariance.
Existe-t-il une mesure qui donne un nombre unique de différences entre les points de données les uns des autres en général pour les données multidimensionnelles?
Je pense qu'il pourrait déjà y avoir de nombreuses solutions, mais je ne suis pas sûr du terme correct à utiliser pour les rechercher.
Peut-être que je peux faire quelque chose comme additionner les valeurs propres de la matrice de covariance, est-ce que cela semble raisonnable?
variance
covariance
covariance-matrix
dontloo
la source
la source
adding up the eigenvalues of the covariance matrix
est égal à la trace d'amibe mentionnée ci-dessus.Réponses:
(La réponse ci-dessous ne fait qu'introduire et énoncer le théorème prouvé dans [0]. La beauté de cet article est que la plupart des arguments sont faits en termes d'algèbre linéaire de base. Pour répondre à cette question, il suffira d'énoncer les principaux résultats mais par tous les moyens, allez vérifier la source d'origine).
Dans toute situation où le modèle multivarié des données peut être décrit par une distribution elliptique à variables, l'inférence statistique réduira, par définition, le problème de l'ajustement (et de la caractérisation) d'un vecteur de localisation à k variables (disons θ ) et d'un par matrice définie semi-positive symétrique (disons ) aux données. Pour des raisons que j'explique ci-dessous (mais que vous supposez déjà comme prémisses), il sera souvent plus significatif de décomposer en un composant de forme (une matrice SPSD de la même taille quek k θ k Σ Σ Σ σ Sk k Σ Σ Σ ) tenant compte de la forme des contours de densité de votre distribution multivariée et d'un scalaire exprimant l'échelle de ces contours.σS
Dans les données univariées ( ), , la matrice de covariance de vos données est un scalaire et, comme nous le verrons ci-dessous, la composante de forme de est 1 de sorte que est égal à son composant d'échelle toujours et aucune ambiguïté n'est possible.Σ Σ Σ Σ = σ Sk=1 Σ Σ Σ Σ=σS
Dans les données multivariées, de nombreux choix de fonctions d'échelle sont possibles. Un en particulier ( ) se distingue par une propriété clé souhaitable. Cela devrait en faire le choix préféré du facteur d'échelle dans le contexte des familles elliptiques.σ S = | ΣσS σS=|ΣΣ|1/k
De nombreux problèmes dans les statistiques MV impliquent l'estimation d'une matrice de dispersion, définie comme une fonction (al) symétrique semi-définie définie dans et satisfaisante:R k × kΣ Rk×k
En présence de données réparties elliptiques, où tous les contours de densité sont des ellipses définies par la même matrice de forme, jusqu'à la multiplication par un scalaire, il est naturel de considérer des versions normalisées de de la forme:Σ
où est une fonction 1-homogène satisfaisant:S
pour tout . Ensuite, V S est appelé le composant de forme de la matrice de dispersion (dans une matrice de forme courte) et σ S = S 1 / deux ( Σ ) est appelé le composant à l'échelle de la matrice de dispersion. Des exemples de problèmes d'estimation multivariée où la fonction de perte ne dépend que de Σ à travers sa composante de forme V S incluent des tests de sphéricité, PCA et CCA entre autres.λ>0 VS σS=S1/2(Σ) Σ VS
Bien sûr, il existe de nombreuses fonctions d'échelle possibles, ce qui laisse toujours ouverte la question de savoir si (le cas échéant) plusieurs choix de fonction de normalisation sont en quelque sorte optimaux. Par exemple:S
Cependant, est la seule fonction d'échelle pour laquelle la matrice d'informations de Fisher pour les estimations correspondantes d'échelle et de forme, dans des familles localement asymptotiquement normales, est diagonale par blocs (c'est-à-dire que les composantes d'échelle et de forme du problème d'estimation sont asymptotiquement orthogonales) [0 ]. Cela signifie, entre autres, que l'échelle fonctionnelle S = | Σ | 1 / k est le seul choix de S pour lequel la spécification de non σ S ne provoque pas de perte d'efficacité lors de l' exécution sur l' inférence V S .S= | Σ|1 / k S= | Σ|1 / k S σS VS
Je ne connais aucune caractérisation d'optimalité comparable pour aucun des nombreux choix possibles de qui satisfont (1).S
la source
La variance d'une variable scalaire est définie comme l'écart quadratique de la variable par rapport à sa moyenne:
Une généralisation à une variance à valeur scalaire pour les variables aléatoires à valeur vectorielle peut être obtenue en interprétant l'écart comme la distance euclidienne :
Cette expression peut être réécrite en
où est la matrice de covariance. Enfin, cela peut être simplifié pourC
qui est la trace de la matrice de covariance.
la source
Bien que la trace de la matrice de covariance, tr (C) , vous donne une mesure de la variance totale, elle ne prend pas en compte la corrélation entre les variables.
Si vous avez besoin d'une mesure de variance globale qui est grande lorsque vos variables sont indépendantes les unes des autres et très petite lorsque les variables sont fortement corrélées, vous pouvez utiliser le déterminant de la matrice de covariance, | C | .
Veuillez consulter cet article pour une meilleure clarification.
la source
Si vous avez besoin d'un seul nombre, je suggère une plus grande valeur propre d'une matrice de covariance. Il s'agit également d'une variance expliquée de la première composante principale de l'ACP. Il vous indique la variance totale pouvant être expliquée si vous réduisez la dimensionnalité de votre vecteur à un. Voir cette réponse sur math SE.
L'idée est de réduire votre vecteur en une seule dimension en combinant toutes les variables linéairement en une seule série. Vous vous retrouvez avec un problème 1d.
La variance expliquée peut être rapportée en termes de% à la variance totale. Dans ce cas, vous verrez immédiatement s'il y a beaucoup de corrélation linéaire entre les séries. Dans certaines applications, ce nombre peut être supérieur ou égal à 80%, par exemple la modélisation de la courbe des taux d'intérêt en finance. Cela signifie que vous pouvez construire une combinaison linéaire de variables qui explique 80 de variance de toutes les variables.
la source
Et cela dépend du déterminant de la matrice de covariance, comme le suggère @ user603.
la source