J'essaie de comprendre pourquoi la somme de deux (ou plus) variables aléatoires lognormales se rapproche d'une distribution lognormale lorsque vous augmentez le nombre d'observations. J'ai regardé en ligne et je n'ai trouvé aucun résultat à ce sujet.
De toute évidence, si et sont des variables lognormales indépendantes, alors par les propriétés des exposants et des variables aléatoires gaussiennes, est également lognormal. Cependant, il n'y a aucune raison de suggérer que est également lognormal.Y X × Y X + Y
POURTANT
Si vous générez deux variables aléatoires lognormales indépendantes et , et laissez , et répétez ce processus plusieurs fois, la distribution de apparaît lognormale. Il semble même se rapprocher d'une distribution log-normale à mesure que vous augmentez le nombre d'observations.Y Z = X + Y Z
Par exemple: Après avoir généré 1 million de paires, la distribution du logarithme naturel de Z est donnée dans l'histogramme ci-dessous. Cela ressemble très clairement à une distribution normale, suggérant que est en effet lognormal.
Quelqu'un a-t-il un aperçu ou des références à des textes qui peuvent être utiles pour comprendre cela?
la source
xx <- rlnorm(1e6,0,3); yy <- rlnorm(1e6,0,1)
Réponses:
Cette lognormalité approximative des sommes de lognormales est une règle empirique bien connue; il est mentionné dans de nombreux articles - et dans un certain nombre d'articles sur le site.
Une approximation lognormale pour une somme de lognormales en faisant correspondre les deux premiers moments est parfois appelée une approximation de Fenton-Wilkinson.
Vous pouvez trouver ce document de Dufresne utile (disponible ici ou ici ).
J'ai également, dans le passé, parfois pointé des gens vers le document de Mitchell
Mitchell, RL (1968),
«Permanence de la distribution log-normale».
J. Optical Society of America . 58: 1267-1272.
Mais c'est désormais couvert dans les références de Dufresne.
Mais alors qu'il tient dans un ensemble assez large de cas pas trop asymétriques, il ne tient pas en général, pas même pour les lognormales iid, pas même lorsque devient assez grand.n
Voici un histogramme de 1000 valeurs simulées, chacune le log de la somme de cinquante mille log-normales iid:
Comme vous le voyez ... le journal est assez asymétrique, donc la somme n'est pas très proche de lognormale.
En effet, cet exemple serait également considéré comme un exemple utile pour les personnes qui pensent (en raison du théorème de la limite centrale) que certains sur des centaines ou des milliers donneront très près des moyennes normales; celui-ci est tellement asymétrique que son logarithme est considérablement asymétrique à droite, mais le théorème de la limite centrale s'applique néanmoins ici; un de plusieurs millions * serait nécessaire avant qu'il ne commence à se rapprocher de la symétrie.n nn
* Je n'ai pas essayé de savoir combien mais, en raison du comportement de l'asymétrie des sommes (de manière équivalente, des moyennes), quelques millions seront clairement insuffisants
Étant donné que plus de détails ont été demandés dans les commentaires, vous pouvez obtenir un résultat similaire à l'exemple avec le code suivant, qui produit 1000 répliques de la somme de 50 000 variables aléatoires lognormales avec le paramètre d'échelle et le paramètre de forme :μ=0 σ=4
(J'ai depuis essayé Son journal est toujours fortement asymétrique à droite)n=106
la source
res <- replicate(1000,sum(rlnorm(50000,0,4))); hist(log(res),n=100)
... si vous l'essayez plusieurs fois, vous verrez l'échelle sauter un peu mais l'image générale est à peu près correcte. Notez que l'inclinaison de moment de la population des lognormales composantes est de milliards - la moyenne de la population dépassera presque toutes les valeurs générées dans la plupart de vos échantillons.Il est probablement trop tard, mais j'ai trouvé l'article suivant sur les sommes des distributions log-normales , qui couvre le sujet. Ce n'est pas normal, mais quelque chose de très différent et difficile à travailler.
la source
Le document par Dufresne de conseillé 2009 et ce celui de 2004 en même temps que ce document utile couverture de l'histoire sur les approximations de la somme de la distribution log-normale et donne somme résultat mathématique.
Le problème est que toutes les approximations qui y sont citées sont trouvées en supposant au départ que vous êtes dans un cas où la somme des distributions log-normales est toujours log-normale. Ensuite, vous pouvez calculer le et le de la somme globale d'une manière approximative. Mais cela ne vous donne pas les conditions que vous devez remplir si vous voulez que la somme soit toujours normale.σμ σ
Peut-être que [cet article] ( http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=6029348 ) vous donne dans un cas particulier une sorte de théorème central limite pour la somme des log-normales mais il y a encore un manque de généralité. Quoi qu'il en soit, l'exemple donné par Glen_b n'est pas vraiment approprié, car c'est un cas où vous pouvez facilement appliquer le théorème de la limite centrale classique, et bien sûr dans ce cas, la somme de log-normale est gaussienne.
Mais il est vrai, comme indiqué dans l'article cité ci-dessus, que même dans la limite vous pouvez avoir une somme log-normale (par exemple si les variables sont corrélées ou suffisamment non iid )n→∞
la source
La loi lognormale est largement présente sur les phénomènes physiques, des sommes de ce type de distributions variables sont nécessaires par exemple pour étudier tout comportement de mise à l'échelle d'un système. Je connais cet article (très long et très fort, le début peut être compris si vous n'êtes pas spéciliste!), "Large distribution effects in sums of lognormal random variables" publié en 2003, (European Physical Journal B-Condensed Matter and Complex Systems 32, 513) et est disponible https://arxiv.org/pdf/physics/0211065.pdf .
la source