Quelle est l'estimation du maximum de vraisemblance de la covariance des données normales bivariées lorsque la moyenne et la variance sont connues?

L'estimateur du coefficient de corrélation (qui dans le cas d'une norme bivariée normale est égal à la covariance)

\tilde{r} = \frac{1}{n} \sum_{i = 1}^{n} x_{i} y_{i}

$\tilde r = \frac 1n\sum_{i=1}^nx_iy_i$

est l'estimateur de la méthode des moments, la covariance de l'échantillon. Voyons s'il coïncide avec l'estimateur du maximum de vraisemblance, . $\hat \rho$

La densité conjointe d'une normale standard bivariée avec coefficient de corrélation est $\rho$

f (x, y) = \frac{1}{2 π \sqrt{1 - ρ^{2}}} \exp {- \frac{x^{2} + y^{2} - 2 ρ x y}{2 (1 - ρ^{2})}}

$f(x,y) = \frac{1}{2 \pi \sqrt{1-\rho^2}} \exp\left\{-\frac{x^2 +y^2 -2\rho xy}{2(1-\rho^2)}\right\}$

et donc la log-vraisemblance d'un échantillon iid de taille est $n$

\ln L = - n \ln (2 π) - \frac{n}{2} \ln (1 - ρ^{2}) - \frac{1}{2 (1 - ρ^{2})} \sum_{i = 1}^{n} (x_{i}^{2} + y_{i}^{2} - 2 ρ x_{i} y_{i})

$\ln L = -n\ln(2\pi) -\frac n2\ln(1-\rho^2) - \frac 1{2(1-\rho^2)}\sum_{i=1}^n(x_i^2 +y_i^2 -2\rho x_iy_i)$

(ici l'hypothèse iid concerne bien sûr chaque tirage de la population bidimensionnelle)

Prendre la dérivée par rapport à et la mettre à zéro donne un polynôme à 3 degrés dans : $\rho$ $\rho$

\hat{ρ} : n {\hat{ρ}}^{3} - (\sum_{i = 1}^{n} x_{i} y_{i}) {\hat{ρ}}^{2} - (1 - \frac{1}{n} \sum_{i = 1}^{n} (x_{i}^{2} + y_{i}^{2})) n \hat{ρ} - \sum_{i = 1}^{n} x_{i} y_{i} = 0

$\hat \rho: n\hat \rho^3 -\left(\sum_{i=1}^nx_iy_i\right)\hat\rho^2 -\left(1- \frac 1n\sum_{i=1}^n(x_i^2 +y_i^2) \right)n\hat \rho - \sum_{i=1}^nx_iy_i =0$

Que les calculs soient corrects peut être vérifié si l'on prend la valeur attendue de la dérivée évaluée au vrai coefficient -it sera égal à zéro. $\rho$

Pour la compacité, écriture , qui est la somme de l' échantillon variances de et . Si nous divisons l'expression de dérivée première par l'estimateur MoM apparaîtra, en particulier $(1/n)\sum_{i=1}^n(x_i^2 +y_i^2) = (1/n)S_2$ $X$ $Y$ $n$

\hat{ρ} : {\hat{ρ}}^{3} - \tilde{r} {\hat{ρ}}^{2} + [(1 / n) S_{2} - 1] \hat{ρ} - \tilde{r} = 0

$\hat \rho: \hat \rho^3 -\tilde r \hat \rho^2 + \big[(1/n)S_2-1\big]\hat \rho -\tilde r=0$

\Rightarrow \hat{ρ} ({\hat{ρ}}^{2} - \tilde{r} \hat{ρ} + [(1 / n) S_{2} - 1]) = \tilde{r}

$\Rightarrow \hat \rho\Big(\hat \rho^2 -\tilde r \hat \rho + \big[(1/n)S_2-1\big] \Big) = \tilde r$

En faisant l'algèbre, il n'est pas difficile de conclure que nous obtiendrons si, et seulement si, , c'est-à-dire seulement s'il arrive que la somme des variances d'échantillon soit égale à la somme des vrais écarts. Donc en général $\hat \rho = \tilde r$ $(1/n)S_2 =2$

\hat{ρ} \neq \tilde{r}

$\hat \rho \neq \tilde r$

Alors qu'est-ce qui se passe ici? Quelqu'un de plus sage l'expliquera, pour le moment, essayons une simulation: j'ai généré un échantillon iid de deux normales standard avec un coefficient de corrélation . La taille de l'échantillon était . Les valeurs de l'échantillon étaient $\rho=0.6$ $n=1.000$

\sum_{i = 1}^{n} x_{i} y_{i} = 522.05, S_{2} = 1913.28

$\sum_{i=1}^nx_iy_i = 522.05,\;\;S_2 = 1913.28$

L'estimateur de la méthode des moments nous donne

\tilde{r} = \frac{522.05}{1000} = 0.522

$\tilde r = \frac {522.05}{1000} = 0.522$

Que se passe-t-il avec la probabilité de journal? Visuellement, nous avons

entrez la description de l'image ici

Numériquement, nous avons

\begin{array}{rrr} ρ & 1st deriv & lnL \\ 0.5 & - 70.92 & - 783.65 \\ 0.51 & - 59.41 & - 782.47 \\ 0.52 & - 47.7 & - 781.48 \\ 0.53 & - 35.78 & - 780.68 \\ 0.54 & - 23.64 & - 780.1 \\ 0.55 & - 11.29 & - 779.75 \\ 0.56 & 1.29 & - 779.64 \\ 0.57 & 14.1 & - 779.81 \\ 0.58 & 27.15 & - 780.27 \\ 0.59 & 40.44 & - 781.05 \\ 0.6 & 53.98 & - 782.18 \end{array}

$\begin{array}{| r | r | r |} \hline \hline ρ&\text{1st deriv}&\text{lnL}\\ \hline 0.5&-70.92&-783.65\\ 0.51&-59.41&-782.47\\ 0.52&-47.7&-781.48\\ 0.53&-35.78&-780.68\\ 0.54&-23.64&-780.1\\ 0.55&-11.29&-779.75\\ 0.56&1.29&-779.64\\ 0.57&14.1&-779.81\\ 0.58&27.15&-780.27\\ 0.59&40.44&-781.05\\ 0.6&53.98&-782.18\\ \hline \end{array}$

et nous voyons que la log-vraisemblance a un maximum un peu avant où également la dérivée première devient nulle . Pas de surprise pour les valeurs de non affichées. De plus, le premier dérivé n'a pas d'autre racine. $\rho=0.56$ $(\hat \rho = 0.558985)$ $\rho$

Cette simulation concorde donc avec le résultat selon lequel l'estimateur du maximum de vraisemblance n'est pas égal à l'estimateur de la méthode des moments (qui est la covariance de l'échantillon entre les deux RV).

Mais il semble que "tout le monde" dit que cela devrait ... alors quelqu'un devrait trouver une explication.

METTRE À JOUR

Une référence qui prouve que le MLE est l'estimateur de la méthode des moments: Anderson, TW et Olkin, I. (1985). Estimation du maximum de vraisemblance des paramètres d'une distribution normale multivariée. Algèbre linéaire et ses applications, 70, 147-171.
Est-il important qu'ici tous les moyens et toutes les variations soient libres de varier et non fixes?

... Probablement oui, car le commentaire de @ guy dans une autre réponse (maintenant supprimée) dit que, avec des paramètres de moyenne et de variance donnés , la normale bivariée devient un membre de la famille exponentielle courbe (et donc certains résultats et propriétés changent) ... ce qui semble être le seul moyen de concilier les deux résultats.

Alecos Papadopoulos
la source

C'est un peu surprenant, mais après réflexion, il faut s'y attendre. Le problème peut être reformulé en estimant le coefficient de régression dans le modèle où . Ce n'est pas un modèle linéaire, il n'y a donc aucune raison de s'attendre à ce que le MLE soit un simple produit scalaire. La même logique montre (je pense!) Que si nous ne connaissons que alors le MLE est , et si nous ne connaissons que . Si nous ne connaissons ni l'un ni l'autre, nous obtenons votre estimateur MOM.

ρ

$\rho$

Y = ρ X + ϵ

$Y = \rho X + \epsilon$

ϵ \sim N (0, {\sqrt{1 - ρ^{2}}}^{2})

$\epsilon \sim \mathcal N(0, \sqrt{1 - \rho^2}^2)$

Var (X)

$\mbox{Var}(X)$

x^{'} y / x^{'} x

$x'y / x'x$

x^{'} y / y^{'} y

$x'y / y'y$

Var (Y)

$\mbox{Var}(Y)$

gars

@guy: Très intéressant. Je pense que ces arguments, s'ils sont légèrement développés, méritent pleinement d'être publiés comme une réponse séparée!

amoeba

@guy Je ne pense pas que cette formulation soit équivalente, car la log-vraisemblance dans la configuration de régression contient le carré . Le coefficient attaché à n'est pas présent dans la formulation de densité bivariée.

ϵ^{2} = (y - ρ x)^{2} = y^{2} - 2 ρ x y + ρ^{2} x^{2}

$\epsilon^2=(y-\rho x)^2 = y^2 -2\rho xy + \rho^2 x^2$

ρ^{2}

$\rho^2$

x^{2}

$x^2$

Alecos Papadopoulos

Ma supposition est . Imaginez et , alors une estimation est attendue.

\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x}) (y_{i} - \bar{y})

$\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)(y_i - \bar y)$

n = 2

$n=2$

y_{1} = y_{2}

$y_1=y_2$

0

$0$

Stéphane Laurent

@AlecosPapadopoulos . Le terme est annulé par le dénominateur , donc le seul terme parmi les données qui contribue à votre log-vraisemblance d'origine est . Mais cela également de la factorisation bien connue , . Cependant, mes autres affirmations sont fausses, car j'ai négligé d'y inclure le terme .

x^{2} + y^{2} - 2 ρ x y = (1 - ρ^{2}) x^{2} + (y - ρ x)^{2}

$x^2 + y^2 - 2\rho x y = (1 - \rho^2) x^2 + (y - \rho x)^2$

(1 - ρ^{2}) x^{2}

$(1 - \rho^2) x^2$

(1 - ρ^{2})

$(1 - \rho^2)$

(y - ρ x)^{2} / (1 - ρ^{2})

$(y - \rho x)^2 / (1 - \rho^2)$

X \sim N (μ_{X}, σ_{X}^{2})

$X \sim N(\mu_X, \sigma^2_X)$

[Y | X] \sim N (μ_{Y} + ρ_{X} \frac{σ_{Y}}{σ_{X}} (X - μ_{X}), σ_{Y | X}^{2} {\sqrt{1 - ρ^{2}}}^{2})

$[Y|X] \sim N(\mu_Y + \rho_X \frac{\sigma_Y}{\sigma_X} (X - \mu_X), \sigma^2_{Y|X} \sqrt{1 - \rho^2}^2)$

σ_{Y} / σ_{X}

$\sigma_Y/\sigma_X$

guy

Quelle est l'estimation du maximum de vraisemblance de la covariance des données normales bivariées lorsque la moyenne et la variance sont connues?

Réponses: