Je fais une expérience numérique qui consiste à échantillonner une distribution log-normale , et à essayer d'estimer les moments par deux méthodes:E [ X n ]
- En regardant la moyenne de l'échantillon de
- Estimer et en utilisant les moyennes d'échantillonnage pour , puis en utilisant le fait que pour une distribution log-normale, nous avons .σ 2 log ( X ) , log 2 ( X ) E [ X n ] = exp ( n μ + ( n σ ) 2 / 2 )
La question est :
Je trouve expérimentalement que la deuxième méthode fonctionne bien mieux que la première, quand je garde le nombre d'échantillons fixe et augmente d'un facteur T. Y a-t-il une explication simple à ce fait?
J'attache une figure dans laquelle l'axe x est T, tandis que l'axe y sont les valeurs de comparant les vraies valeurs de (ligne orange), aux valeurs estimées. méthode 1 - points bleus, méthode 2 - points verts. l'axe des y est à l'échelle logarithmiqueE [ X 2 ] = exp ( 2 μ + 2 σ 2 )
MODIFIER:
Ci-dessous est un code Mathematica minimal pour produire les résultats pour un T, avec la sortie:
ClearAll[n,numIterations,sigma,mu,totalTime,data,rmomentFromMuSigma,rmomentSample,rmomentSample]
(* Define variables *)
n=2; numIterations = 10^4; sigma = 0.5; mu=0.1; totalTime = 200;
(* Create log normal data*)
data=RandomVariate[LogNormalDistribution[mu*totalTime,sigma*Sqrt[totalTime]],numIterations];
(* the moment by theory:*)
rmomentTheory = Exp[(n*mu+(n*sigma)^2/2)*totalTime];
(*Calculate directly: *)
rmomentSample = Mean[data^n];
(*Calculate through estimated mu and sigma *)
muNumerical = Mean[Log[data]]; (*numerical \[Mu] (gaussian mean) *)
sigmaSqrNumerical = Mean[Log[data]^2]-(muNumerical)^2; (* numerical gaussian variance *)
rmomentFromMuSigma = Exp[ muNumerical*n + (n ^2sigmaSqrNumerical)/2];
(*output*)
Log@{rmomentTheory, rmomentSample,rmomentFromMuSigma}
Sortie:
(*Log of {analytic, sample mean of r^2, using mu and sigma} *)
{140., 91.8953, 137.519}
ci-dessus, le deuxième résultat est la moyenne de l'échantillon de , qui est inférieure aux deux autres résultats
la source
Réponses:
Il y a quelque chose de déroutant dans ces résultats puisque
mais ils sont dus au problème et non aux calculs numériques: j'ai répété l'expérience en R et obtenu l'image suivante avec le même code couleur et la même séquence de et , qui représente chaque estimateur divisé par la vraie attente:σ TμT σT
Voici le code R correspondant:
Il y a donc effectivement effondrement du deuxième moment empirique à mesure que et augmentent que j'attribuerais à l'énorme augmentation de la variance dudit deuxième moment empirique à mesure que et augmentent.σ μ σμ σ μ σ
la source
J'ai pensé jeter des figues montrant que les graphiques de user29918 et de Xi'an sont cohérents. La figure 1 trace ce que user29918 a fait, et la figure 2 (basée sur les mêmes données), fait ce que Xi'an a fait pour son tracé. Même résultat, présentation différente.
Ce qui se passe, c'est qu'à mesure que T augmente, les variances deviennent énormes et l'estimateur devient comme essayer d'estimer la moyenne de population du Powerball Lotto en achetant des billets de Lotto! Un grand pourcentage du temps, vous sous-estimerez le gain (car aucune observation d'échantillon n'atteint le jackpot) et un petit pourcentage du temps, vous surestimerez massivement le gain (car il y a un gagnant de jackpot dans l'échantillon). La moyenne de l'échantillon est une estimation non biaisée, mais elle ne devrait pas être précise, même avec des milliers et des milliers de tirages! En fait, comme il devient de plus en plus difficile de gagner au loto, la moyenne de votre échantillon sera inférieure à la moyenne de la population la plupart du temps.1n∑jeX2je
D'autres commentaires:
la source