Quelle est l'estimation du maximum de vraisemblance de la covariance des données normales bivariées lorsque la moyenne et la variance sont connues?

10

Supposons que nous ayons un échantillon aléatoire d'une distribution normale bivariée qui a des zéros comme moyennes et des uns comme des variances, donc le seul paramètre inconnu est la covariance. Quel est le MLE de la covariance? Je sais que cela devrait être quelque chose comme mais comment savons-nous cela?1nj=1nxjyj

Stacy
la source
1
En entrée, ne pensez-vous pas que c'est un peu onclever d'estimer les moyennes avec et alors qu'en fait on sait qu'ils sont 0 et 0? x¯y¯
Wolfgang
Très onclever, l'a réparé. Je ne vois toujours pas comment cela peut facilement suivre. C'est analogue à la variance de l'échantillon mais pourquoi est-ce le MLE (sauf si ce n'est pas le cas et que j'ai fait une autre erreur)
Stacy
Avez-vous supprimé ? Prendre cette formule ne signifie pas que vous considérez et comme les estimations des moyennes. 1ni=1n(xix¯)(yiy¯)x¯y¯
Stéphane Laurent
@ StéphaneLaurent Oui, dans le post initial, la formule a été donnée telle que vous l'avez écrite.
Wolfgang

Réponses:

11

L'estimateur du coefficient de corrélation (qui dans le cas d'une norme bivariée normale est égal à la covariance)

r~=1ni=1nxiyi

est l'estimateur de la méthode des moments, la covariance de l'échantillon. Voyons s'il coïncide avec l'estimateur du maximum de vraisemblance, .ρ^

La densité conjointe d'une normale standard bivariée avec coefficient de corrélation estρ

f(x,y)=12π1ρ2exp{x2+y22ρxy2(1ρ2)}

et donc la log-vraisemblance d'un échantillon iid de taille estn

lnL=nln(2π)n2ln(1ρ2)12(1ρ2)i=1n(xi2+yi22ρxiyi)

(ici l'hypothèse iid concerne bien sûr chaque tirage de la population bidimensionnelle)

Prendre la dérivée par rapport à et la mettre à zéro donne un polynôme à 3 degrés dans :ρρρ

ρ^:nρ^3(i=1nxiyi)ρ^2(11ni=1n(xi2+yi2))nρ^i=1nxiyi=0

Que les calculs soient corrects peut être vérifié si l'on prend la valeur attendue de la dérivée évaluée au vrai coefficient -it sera égal à zéro.ρ

Pour la compacité, écriture , qui est la somme de l' échantillon variances de et . Si nous divisons l'expression de dérivée première par l'estimateur MoM apparaîtra, en particulier X Y n(1/n)i=1n(xi2+yi2)=(1/n)S2XYn

ρ^:ρ^3r~ρ^2+[(1/n)S21]ρ^r~=0

ρ^(ρ^2r~ρ^+[(1/n)S21])=r~

En faisant l'algèbre, il n'est pas difficile de conclure que nous obtiendrons si, et seulement si, , c'est-à-dire seulement s'il arrive que la somme des variances d'échantillon soit égale à la somme des vrais écarts. Donc en général (1/n)S2=2ρ^=r~(1/n)S2=2

ρ^r~

Alors qu'est-ce qui se passe ici? Quelqu'un de plus sage l'expliquera, pour le moment, essayons une simulation: j'ai généré un échantillon iid de deux normales standard avec un coefficient de corrélation . La taille de l'échantillon était . Les valeurs de l'échantillon étaientn = 1 000ρ=0.6n=1.000

i=1nxiyi=522.05,S2=1913.28

L'estimateur de la méthode des moments nous donne

r~=522.051000=0.522

Que se passe-t-il avec la probabilité de journal? Visuellement, nous avons

entrez la description de l'image ici

Numériquement, nous avons

ρ1st derivlnL0.570.92783.650.5159.41782.470.5247.7781.480.5335.78780.680.5423.64780.10.5511.29779.750.561.29779.640.5714.1779.810.5827.15780.270.5940.44781.050.653.98782.18

et nous voyons que la log-vraisemblance a un maximum un peu avant où également la dérivée première devient nulle . Pas de surprise pour les valeurs de non affichées. De plus, le premier dérivé n'a pas d'autre racine.( ρ = 0,558985 ) ρρ=0.56(ρ^=0.558985)ρ

Cette simulation concorde donc avec le résultat selon lequel l'estimateur du maximum de vraisemblance n'est pas égal à l'estimateur de la méthode des moments (qui est la covariance de l'échantillon entre les deux RV).

Mais il semble que "tout le monde" dit que cela devrait ... alors quelqu'un devrait trouver une explication.

METTRE À JOUR

Une référence qui prouve que le MLE est l'estimateur de la méthode des moments: Anderson, TW et Olkin, I. (1985). Estimation du maximum de vraisemblance des paramètres d'une distribution normale multivariée. Algèbre linéaire et ses applications, 70, 147-171.
Est-il important qu'ici tous les moyens et toutes les variations soient libres de varier et non fixes?

... Probablement oui, car le commentaire de @ guy dans une autre réponse (maintenant supprimée) dit que, avec des paramètres de moyenne et de variance donnés , la normale bivariée devient un membre de la famille exponentielle courbe (et donc certains résultats et propriétés changent) ... ce qui semble être le seul moyen de concilier les deux résultats.

Alecos Papadopoulos
la source
1
C'est un peu surprenant, mais après réflexion, il faut s'y attendre. Le problème peut être reformulé en estimant le coefficient de régression dans le modèle où . Ce n'est pas un modèle linéaire, il n'y a donc aucune raison de s'attendre à ce que le MLE soit un simple produit scalaire. La même logique montre (je pense!) Que si nous ne connaissons que alors le MLE est , et si nous ne connaissons que . Si nous ne connaissons ni l'un ni l'autre, nous obtenons votre estimateur MOM. ρY=ρX+ϵVar(X)xϵN(0,1ρ22)Var(X)xy/xxxy/yyVar(Y)
gars
1
@guy: Très intéressant. Je pense que ces arguments, s'ils sont légèrement développés, méritent pleinement d'être publiés comme une réponse séparée!
amoeba
@guy Je ne pense pas que cette formulation soit équivalente, car la log-vraisemblance dans la configuration de régression contient le carré . Le coefficient attaché à n'est pas présent dans la formulation de densité bivariée. ϵ2=(yρx)2=y22ρxy+ρ2x2ρ2x2
Alecos Papadopoulos
Ma supposition est . Imaginez et , alors une estimation est attendue. 1ni=1n(xix¯)(yiy¯)n=2y1=y20
Stéphane Laurent
1
@AlecosPapadopoulos . Le terme est annulé par le dénominateur , donc le seul terme parmi les données qui contribue à votre log-vraisemblance d'origine est . Mais cela également de la factorisation bien connue , . Cependant, mes autres affirmations sont fausses, car j'ai négligé d'y inclure le terme . x2+y22ρxy=(1ρ2)x2+(yρx)2(1ρ2)x2(1ρ2)(yρx)2/(1ρ2)XN(μX,σX2)[Y|X]N(μY+ρXσYσX(XμX),σY|X21ρ22)σY/σX
guy
2

Dans les conditions énoncées ( et ), la fonction de vraisemblance pour un échantillon aléatoire de taille estμX=μY=0σX=σY=1n

L(ρ|X,Y)=1(2π[1ρ2])n/2exp[12(1ρ2)(XX2ρXY+YY)].

Trouvez maintenant la log-vraisemblance et prenez la dérivée par rapport à . Ensuite, définissez-le égal à 0, en résolvant pour . Vous devriez bien sûr faire un test approprié pour montrer que ce que vous avez trouvé est en fait un maximum global.pρρ^

Dennis
la source