Pourquoi le dénominateur de l'estimateur de covariance ne serait-il pas n-2 plutôt que n-1?

36

Le dénominateur de l'estimateur de variance (non biaisé) est car il y a observations et un seul paramètre est estimé.nn1n

V(X)=i=1n(XiX¯)2n1

Dans le même esprit, je me demande pourquoi le dénominateur de la covariance ne serait pas lorsque deux paramètres sont estimés?n2

Cov(X,Y)=i=1n(XiX¯)(YiY¯)n1
MYaseen208
la source
15
Si vous avez fait cela, vous avez deux définitions contradictoires de la variance: on serait la première formule et l'autre serait la deuxième formule appliquée avec . Y=X
whuber
3
Une moyenne bi / multivariée (attente) est un, pas deux paramètres.
Le
14
@ttnphns Ce n'est pas vrai: la moyenne bivariée est évidemment deux paramètres car elle nécessite deux nombres réels pour l'exprimer. (En fait, il s’agit d’un paramètre vectoriel unique , mais le fait de le dire ne fait que masquer le fait qu’il a deux composantes.) Cela apparaît explicitement dans les degrés de liberté des tests t de variance en pool, par exemple, où est soustrait, pas . Ce qui est intéressant à propos de cette question, c’est la façon dont elle révèle à quel point l’explication commune selon laquelle nous soustrayons à parce que l’un des paramètres a été estimé est vague, sans fondement et potentiellement trompeuse . 1 1 n211n
whuber
@ Whuber, vous avez raison. S'il ne s'agissait que de (observations indépendantes), ce qui importerait, nous ne dépenserions pas plus de df dans les tests à plusieurs variables que dans les tests univariés. n
ttnphns
3
@ Whuber: Je dirais peut-être que cela montre que ce qui compte comme "paramètre" dépend de la situation. Dans ce cas, la variance est calculée sur observationsn et chaque observation - ou la moyenne totale - peut donc être considérée comme un paramètre, même s'il s'agit d'une moyenne multivariée, comme l'a dit Thomas. Cependant, dans d'autres cas, par exemple, lorsqu'un test considère des combinaisons linéaires de dimensions, chaque dimension de chaque observation devient "un paramètre". Vous avez raison de dire que c'est une question délicate.
amibe dit de réintégrer Monica

Réponses:

31

Les covariances sont des variances.

Depuis par l' identité de polarisation

Cov(X,Y)=Var(X+Y2)-Var(X-Y2),

les dénominateurs doivent être les mêmes.

whuber
la source
20

Un cas particulier devrait vous donner une intuition; Pensez à ce qui suit:

Cov^(X,X)=V^(X)

Vous êtes heureux que ce dernier soit raison de la Correction de Bessel.Σje=1n(Xje-X¯)2n-1

Mais remplacer par dans pour le premier donne , alors que pensez-vous qu'il serait préférable de compléter?X ^ C o v ( X , Y ) Σ n i = 1 ( X i - ¯ X ) ( X i - ¯ X )YXCov^(X,Y)Σje=1n(Xje-X¯)(Xje-X¯)dénominateur mystère

Poisson d'argent
la source
1
D'ACCORD. Mais le PO peut demander "pourquoi considérer cov (X, X) et cov (X, Y) comme une logique logique? Pourquoi remplacez-vous Y par X dans cov () à la légère? Peut-être cov (X, Y) est une situation différente? " Vous n'avez pas évité cela, alors que la réponse (très voté) devrait avoir, selon mon impression :-)
tnphns
7

Une réponse rapide et sale ... Considérons d’abord ; si vous aviez observations dont la valeur attendue était connue vous utiliseriez pour estimer la variance.n E ( X ) = 0 1var(X)n E(X)=01nΣje=1nXje2

La valeur attendue étant inconnue, vous pouvez transformer vos observations en observations avec une valeur attendue connue en prenant pour . Vous obtiendrez une formule avec un dans le dénominateur - mais les ne sont pas indépendants et vous devrez en tenir compte; à la fin, vous retrouveriez la formule habituelle.n - 1 A i = X i - X 1 i = 2 , , n n - 1 A inn-1UNEje=Xje-X1je=2,,nn-1UNEje

Maintenant, pour la covariance, vous pouvez utiliser la même idée: si la valeur attendue de était , vous auriez eu un dans la formule. En soustrayant à toutes les autres valeurs observées, vous obtenez observations dont la valeur attendue est connue ... et un dans la formule - une fois encore, cela introduit une certaine dépendance à prendre en compte. Compte.( 0 , 0 ) 1(X,Y)(0,0) (X1,Y1)n-111n(X1,Y1)n-11n-1

PS La méthode la plus simple consiste à choisir une base orthonormale de , c’est-à-dire vecteurs tel que n-1c1,...,c n - 1 R n(1,,1)n-1c1,,cn-1Rn

  • ijcij2=1 pour tout ,i
  • ijcij=0 pour tout ,i
  • i 1i 2jci1jci2j=0 pour tous les .i1i2

Vous pouvez ensuite définir variables et . Les sont indépendants, ont une valeur attendue et ont la même variance / covariance que les variables d'origine.n1Ai=jcijXjBi=jcijYj(Ai,Bi)(0,0)

Tout ce qui compte, c’est que si vous voulez vous débarrasser de l’attente inconnue, vous laissez tomber une (et une seule) observation. Cela fonctionne de la même manière dans les deux cas.

Elvis
la source
6

Voici une preuve que l'estimateur de covariance d'échantillon p-variable avec le dénominateur est un estimateur sans biais de la matrice de covariance:1n1

x=(x1,...,xp) .

Σ=E((xμ)(xμ))

S=1n(xix¯)(xix¯)

Pour afficher:E(S)=n1nΣ

Preuve:S=1nxixix¯x¯

Prochain:

(1)E(XjeXje)=Σ+μμ

(2)E(X¯X¯)=1nΣ+μμ

Par conséquent,E(S)=Σ+μμ-(1nΣ+μμ)=n-1nΣ

Et ainsi , avec le dénominateur final , est non biaisé. Les éléments non diagonaux de sont vos échantillons de covariance.Svous=nn-1S1n-1Svous

Remarque additionnelle:

  1. Les tirages n sont indépendants. Ceci est utilisé dans (2) pour calculer la covariance de la moyenne de l'échantillon.

  2. Les étapes (1) et (2) utilisent le fait queCov(x)=E[xx]μμ

  3. L’étape (2) utilise le fait queCov(x¯)=1nΣ

statiste
la source
La difficulté d'être à l'étape 2! :)
Elvis
@ Elvis C'est en désordre. Il faut appliquer la règle Cov (X + Y, Z) = Cov (X, Z) + Cov (Y, Z) et reconnaître que les différents tirages sont indépendants. Ensuite, il résume la covariance n fois et la réduit de 1 / n²
statchrist
4

Je suppose qu’une façon de construire l’intuition derrière l’utilisation de 'n-1' et non de 'n-2' est - que pour calculer la co-variance, nous n’avons pas besoin de dé-signifier X et Y, mais l’un ou l’autre, à savoir

Uditg_ucla
la source
Pourriez-vous préciser en quoi cela influe sur la question de savoir quel dénominateur utiliser? La relation algébrique en preuve découle du fait que les résidus relatifs à la somme moyenne sont à zéro, mais ne dit rien du dénominateur pertinent.
whuber
5
Je suis venu ici parce que j'avais la même question que le PO. Je pense que cette réponse va au coeur du point que @whuber a souligné ci-dessus: la règle de base est que df ~ = n - (paramètres estimés) peut être "vague, peu rigoureux et potentiellement trompeur". Cela souligne le fait que même s'il semble que vous ayez besoin d'estimer deux paramètres (xbar et ybar), vous n'en estimez vraiment qu'un (xbar ou ybar). Puisque le df devrait être le même dans les deux cas, il doit être le plus bas des deux. Je pense que c'est l'intention ici.
Mpettis
1

1) Commencez .F=2n

2) covariance d' échantillon est proportionnelle à . Perdre deux d f ; une de ˉ X , un de ˉ Y résultant en d f = 2 ( n - 1 ) .Σje=1n(Xje-X¯)(Yje-Y¯)FX¯Y¯F=2(n-1)

3) Toutefois, ne contient que des n termes distincts, un pour chaque produit. Lorsque deux nombres sont multipliés ensemble, les informations indépendantes de chaque numéro séparé disparaissent.Σje=1n(Xje-X¯)(Yje-Y¯)n

Par exemple, considérons que

,24=1*24=2*12=3*8=4*6=6*4=8*3=12*2=24*1

et cela n'inclut pas les irrationnels et les fractions, par exemple , de sorte que lorsque nous multiplions deux séries de nombres ensemble et examinions leur produit, nous ne voyons que ledf=n-1d’une série de chiffres, car nous avons perdu la moitié de l’information originale, c’est-à-dire quels étaient ces deux nombres. avant que le regroupement par paires en un seul nombre (c’est-à-dire la multiplication) ait été effectué.24=26*26F=n-1

En d'autres termes, sans perte de généralité, nous pouvons écrire

pour certains z i et ˉ z ,(Xje-X¯)(Yje-Y¯)=zje-z¯zjez¯

ie, , et, ˉ z = ˉ X ˉ Y . À partir des z , qui ont alors clairement d f = n - 1 , la formule de covariance devientzje=XjeYje-X¯Yje-XjeY¯z¯=X¯Y¯zF=n-1

Σje=1nzje-z¯n-1=

Σje=1n[(Xje-X¯)(Yje-Y¯)]n-1=

1n-1Σje=1n(Xje-X¯)(Yje-Y¯)

F

Carl
la source
@whuber Comment ai-je pu publier la même chose deux fois et l'effacer une fois? Ce qui donne? Peut-on se débarrasser de l'un d'entre eux? Pour référence future, existe-t-il un moyen de supprimer définitivement ces doublons? J'en ai quelques-uns et c'est agaçant.
Carl
Autant que je sache, vous avez republié votre réponse du duplicata à ici. (Personne d'autre n'a le pouvoir de poster des réponses en votre nom.) Le système déconseille vivement de publier des réponses identiques dans plusieurs discussions, donc lorsque j'ai vu cela, il m'a convaincu que ces deux discussions étaient des doublons parfaits et que je les "fusionnais". Cette procédure déplace tous les commentaires et les réponses du thread source vers le thread cible. J'ai ensuite supprimé votre message en double ici dans le fil cible. Il restera définitivement supprimé, mais sera visible pour vous ainsi que pour les personnes de réputation suffisamment élevée.
whuber
@whuber Je ne savais pas ce qui se passait lors d'une fusion, si une fusion était en cours ou quelles étaient les règles, même si les choses étaient constamment à la recherche de solutions. Il faut du temps pour apprendre, être patient, BTW, envisageriez - vous prendre stats.stackexchange.com/questions/251700/... hors de Hold?
Carl