Pourquoi la moyenne arithmétique est-elle plus petite que la moyenne de distribution dans une distribution log-normale?

13

Donc, j'ai un processus aléatoire générant distribution log-normale des variables aléatoires . Voici la fonction de densité de probabilité correspondante:X

Figure représentant une fonction de densité de probabilité lognormale

Je voulais estimer la distribution de quelques instants de cette distribution d'origine, disons le 1er moment: la moyenne arithmétique. Pour ce faire, j'ai dessiné 100 variables aléatoires 10000 fois afin de pouvoir calculer 10000 estimation de la moyenne arithmétique.

Il y a deux façons différentes d'estimer cette moyenne (du moins, c'est ce que j'ai compris: je peux me tromper):

  1. en calculant clairement la moyenne arithmétique de la manière habituelle:
    X¯=i=1NXiN.
  2. ou en estimant d'abord et partir de la distribution normale sous-jacente: puis la moyenne sous la formeμ μ = N i = 1 log ( X i )σμˉ X =exp(μ+1
    μ=i=1Nlog(Xi)Nσ2=i=1N(log(Xi)μ)2N
    X¯=exp(μ+12σ2).

Le problème est que les distributions correspondant à chacune de ces estimations sont systématiquement différentes:

Les deux estimateurs donnent des distributions différentes comme indiqué sur l'image.

La moyenne «simple» (représentée par la ligne pointillée rouge) fournit des valeurs généralement inférieures à celle dérivée de la forme exponentielle (ligne simple verte). Bien que les deux moyennes soient calculées sur le même ensemble de données exact. Veuillez noter que cette différence est systématique.

Pourquoi ces distributions ne sont-elles pas égales?

JohnW
la source
quels sont vos vrais paramètres pour et ? σμσ
Christoph Hanck
σ = 1,5μ=3 et , mais veuillez noter que je suis intéressé par l'estimation de ces paramètres, d'où l'approche Monte-Carlo au lieu de calculer la chose à partir de ces nombres bruts. σ=1.5
JohnW
bien sûr, c'est pour la réplication de vos résultats.
Christoph Hanck
4
Fait intéressant, ce phénomène n'a rien à voir avec la lognormalité. Étant donné des nombres positifs avec des logarithmes , il est bien connu que leur moyenne arithmétique (AM) n'est jamais inférieure à leur moyenne géométrique (GM) . Dans l'autre sens, l'AM n'est jamais supérieur au GM multiplié par où est la variance de . Ainsi, la courbe rouge en pointillés doit se situer à gauche de la courbe verte continue pour toute distribution parentale (décrivant des nombres aléatoires positifs). y ix i / n exp ( y i / n ) exp ( s 2 y / 2 ) s 2 y y ixiyixi/nexp(yi/n)exp(sy2/2)sy2yi
whuber
Si une grande partie de la moyenne provient d'une faible probabilité de nombres énormes, une moyenne arithmétique d'échantillon fini peut sous-estimer la moyenne de la population avec une probabilité élevée. (Dans l'attente, c'est non biaisé, mais il y a une grande probabilité d'une petite sous-estimation et une petite probabilité d'une grande surestimation.) Cette question peut également se rapporter à celle-ci: stats.stackexchange.com/questions/214733/…
Matthew Gunn

Réponses:

12

Les deux estimateurs que vous comparez sont l'estimateur de méthode des moments (1.) et le MLE (2.), voir ici . Les deux sont cohérents (donc pour les grands , ils sont dans un certain sens susceptibles d'être proches de la vraie valeur ).exp [ μ + 1 / 2 σ 2 ]Nexp[μ+1/2σ2]

Pour l'estimateur MM, c'est une conséquence directe de la loi des grands nombres, qui dit que . Pour le MLE, le théorème de mappage continu implique que comme et .X¯pE(Xi)

exp[μ^+1/2σ^2]pexp[μ+1/2σ2],
μ^pμσ^2pσ2

Le MLE n'est cependant pas impartial.

En fait, l'inégalité de Jensen nous dit que, pour petit, le MLE devrait être biaisé vers le haut (voir aussi la simulation ci-dessous): et are (dans ce dernier cas, presque , mais avec un biais négligeable pour , car l'estimateur sans biais divise par ) bien connu pour être des estimateurs sans biais des paramètres d'une distribution normale et (j'utilise des chapeaux pour indiquer les estimateurs).Nμ^σ^2N=100N1μσ2

Par conséquent, . Étant donné que l'exponentielle est une fonction convexe, cela implique que E(μ^+1/2σ^2)μ+1/2σ2

E[exp(μ^+1/2σ^2)]>exp[E(μ^+1/2σ^2)]exp[μ+1/2σ2]

Essayez d'augmenter à un plus grand nombre, ce qui devrait centrer les deux distributions autour de la valeur réelle.N=100

Voir cette illustration de Monte Carlo pour dans R:N=1000

entrez la description de l'image ici

Créé avec:

N <- 1000
reps <- 10000

mu <- 3
sigma <- 1.5
mm <- mle <- rep(NA,reps)

for (i in 1:reps){
  X <- rlnorm(N, meanlog = mu, sdlog = sigma)
  mm[i] <- mean(X)

  normmean <- mean(log(X))
  normvar <- (N-1)/N*var(log(X))
  mle[i] <- exp(normmean+normvar/2)
}
plot(density(mm),col="green",lwd=2)
truemean <- exp(mu+1/2*sigma^2)
abline(v=truemean,lty=2)
lines(density(mle),col="red",lwd=2,lty=2)

> truemean
[1] 61.86781

> mean(mm)
[1] 61.97504

> mean(mle)
[1] 61.98256

Nous notons que si les deux distributions sont maintenant (plus ou moins) centrées autour de la vraie valeur , le MLE, comme c'est souvent le cas, est plus efficace.exp(μ+σ2/2)

On peut en effet montrer explicitement qu'il doit en être ainsi en comparant les variances asymptotiques. Cette très belle réponse CV nous dit que la variance asymptotique du MLE est tandis que celui de l'estimateur MM, par une application directe du CLT appliqué aux moyennes d'échantillons est celui de la variance de la distribution log-normale, Le second est plus grand que le premier car aset .

Vt=(σ2+σ4/2)exp{2(μ+12σ2)},
exp{2(μ+12σ2)}(exp{σ2}1)
exp{σ2}>1+σ2+σ4/2,
exp(x)=i=0xi/i!σ2>0

Pour voir que le MLE est en effet biaisé pour les petits , je répète la simulation pour et 50 000 réplications et j'obtiens un biais simulé comme suit:NN <- c(50,100,200,500,1000,2000,3000,5000)

entrez la description de l'image ici

On voit que la MLE est en effet sérieusement biaisé pour les petits . Je suis un peu surpris du comportement quelque peu erratique du biais de l'estimateur MM en fonction de . Le biais simulé pour un petit pour MM est probablement causé par des valeurs aberrantes qui affectent plus fortement l'estimateur MM non enregistré que le MLE. Dans une simulation, les estimations les plus importantes se sont avérées êtreNNN=50

> tail(sort(mm))
[1] 336.7619 356.6176 369.3869 385.8879 413.1249 784.6867
> tail(sort(mle))
[1] 187.7215 205.1379 216.0167 222.8078 229.6142 259.8727 
Christoph Hanck
la source
Ah ok. Il ne m'est vraiment pas venu à l'esprit qu'une méthode pourrait être plus efficace que l'autre étant donné les mêmes données. Je pourrais donc dire que la solution MLE converge plus rapidement par rapport à que l'autre méthode si j'ai bien compris. Merci! N
JohnW
1
J'ai fait un petit montage sur le biais. Pour le biais est en effet négatif pour l'estimateur MM, mais cela ne semble pas un résultat général, voir le tracé du biais en fonction de . N=100N
Christoph Hanck
2
Eh bien, je suis aussi surpris qu'il y ait une si grande différence entre les deux méthodes, mais cet exemple est absolument parfait pour montrer pourquoi "simplement faire la moyenne des choses" peut être horrible!
JohnW
1
@JohnW, j'ai ajouté une petite explication analytique des raisons pour lesquelles le MLE a une variance plus petite.
Christoph Hanck
1
L'écart vient du fait que le biais est un problème d'échantillon fini, c'est-à-dire qu'il disparaît lorsque part à l'infini. La comparaison de la variance asymptotique (comme son nom l'indique) ne montre que ce qui se passe dans la limite, comme . NN
Christoph Hanck