Que dit la matrice inverse de covariance à propos des données? (Intuitivement)

46

Je suis curieux de connaître la nature de . Quelqu'un peut-il dire quelque chose d'intuitif sur "Que dit propos des données?" Σ - 1Σ1Σ1

Modifier:

Merci pour les réponses

Après avoir suivi d'excellents cours, j'aimerais ajouter quelques points:

  1. C'est une mesure d'information, c'est-à-dire que est la quantité d'informations le long de la direction .xxTΣ1xx
  2. Dualité: Puisque est positif défini, il en est de même de , ce sont donc des normes de produits scalaires, plus précisément deux normes les unes des autres, de sorte que nous pouvons déduire Fenchel dual pour le problème des moindres carrés régularisé, et faire la maximisation par rapport au double problème. Nous pouvons choisir l'un ou l'autre, en fonction de leur conditionnement.Σ - 1ΣΣ1
  3. Espace de Hilbert: Les colonnes (et les lignes) de et couvrent le même espace. Il n’ya donc aucun avantage (autre que lorsque l’une de ces matrices est mal conditionnée) entre une représentation avec ou Σ Σ - 1 ΣΣ1ΣΣ1Σ
  4. Statistiques bayésiennes: la norme de joue un rôle important dans les statistiques bayésiennes. C'est-à-dire qu'il a déterminé la quantité d'informations dont nous disposons auparavant, par exemple, lorsque la covariance de la densité antérieure ressemble à nous avons une information non informative (ou probablement antérieure à Jeffreys).Σ1Σ10
  5. Statistiques fréquentistes: Il est étroitement lié aux informations de Fisher, utilisant la borne Cramér – Rao. En fait, la matrice d’information de pêcheur (produit extérieur du gradient de log-vraisemblance avec lui-même) est liée de Cramér – Rao, c’est-à-dire Σ1F (par rapport au cône semi-défini positif, à la concentration de iewrt ellipsoïdes). Ainsi, lorsque Σ1=F l'estimateur de vraisemblance maximum est efficace, c'est-à-dire que le maximum d'informations existe dans les données, le régime fréquentiste est donc optimal. En termes plus simples, pour certaines fonctions de vraisemblance (notez que la forme fonctionnelle du vraisemblance dépend uniquement du modèle probabiliste qui est censé générer des données, également appelé modèle génératif), le maximum de vraisemblance est un estimateur efficace et cohérent, comme un patron. (désolé de l'avoir trop utilisé)
Arya
la source
3
Je pense que la PCA détecte un vecteur propre avec de grandes valeurs propres plutôt que de petites valeurs propres.
wdg
2
(3) Est incorrect, car cela revient à affirmer que les colonnes de sont celles de (jusqu'à une permutation), ce qui n'est vrai que pour la matrice d'identité. Σ1Σ
whuber

Réponses:

15

C’est une mesure de précision tout comme est une mesure de dispersion.Σ

De manière plus élaborée, est une mesure de la façon dont les variables sont dispersées autour de la moyenne (les éléments diagonaux) et de la façon dont elles co-varient avec d'autres éléments variables (les éléments non diagonaux). Plus la dispersion est grande, plus ils sont éloignés de la moyenne et plus ils co-varient (en valeur absolue) avec les autres variables, plus ils ont tendance à se "déplacer ensemble" (dans le même sens ou dans le sens opposé, selon la signe de la covariance).Σ

De même, est une mesure de la densité des variables autour de la moyenne (les éléments diagonaux) et de la mesure dans laquelle elles ne co-varient pas avec les autres variables (les éléments non diagonaux). Ainsi, plus la diagonale est haute, plus la variable est serrée autour de la moyenne. L'interprétation des éléments hors diagonale est plus subtile et je vous renvoie aux autres réponses pour cette interprétation.Σ1

soutenir
la source
3
Un contre-exemple fort à votre dernière déclaration sur les éléments hors diagonale dans est accordée par exemple le plus simple non négligeable en deux dimensions, Les valeurs hors diagonale plus grandes correspondent à des valeurs plus extrêmes du coefficient de corrélation ce qui est le contraire de ce que vous semblez dire. Σ1Σ1=(11ρ2ρ1ρ2ρ1ρ211ρ2).ρ,
whuber
@whuber Right. Je devrais me débarrasser du mot "absolu" dans la dernière phrase. Merci
prop
3
Merci, mais cela ne résout toujours pas le problème: la relation que vous affirmez entre les éléments non diagonaux de l'inverse et la co-variation n'existe pas.
whuber
@ Whuber Je pense que c'est le cas. Dans votre exemple, les éléments non diagonaux sont négatifs. Par conséquent, lorsque augmente, les éléments hors diagonale diminuent. Vous pouvez le vérifier en notant ce qui suit: à l’élément non diagonal est ; quand approche l'approche des éléments non diagonaux et la dérivée de l'élément non diagonal par rapport à est négative. ρρ=00ρ1ρ
prop
2
Mes éléments hors diagonale sont positifs quandρ<0.
whuber
17

En utilisant des exposants pour désigner les éléments de l'inverse, est la variance de la composante de la variable qui n'est pas corrélée avec les autres variables , et est la corrélation partielle des variables et , en contrôlant les autres variables.1/σiiip1σij/σiiσjjijp2

Ray Koopman
la source