La somme des variables aléatoires lognormales indépendantes semble lognormale?

11

J'essaie de comprendre pourquoi la somme de deux (ou plus) variables aléatoires lognormales se rapproche d'une distribution lognormale lorsque vous augmentez le nombre d'observations. J'ai regardé en ligne et je n'ai trouvé aucun résultat à ce sujet.

De toute évidence, si et sont des variables lognormales indépendantes, alors par les propriétés des exposants et des variables aléatoires gaussiennes, est également lognormal. Cependant, il n'y a aucune raison de suggérer que est également lognormal.Y X × Y X + YXYX×YX+Y

POURTANT

Si vous générez deux variables aléatoires lognormales indépendantes et , et laissez , et répétez ce processus plusieurs fois, la distribution de apparaît lognormale. Il semble même se rapprocher d'une distribution log-normale à mesure que vous augmentez le nombre d'observations.Y Z = X + Y ZXYZ=X+YZ

Par exemple: Après avoir généré 1 million de paires, la distribution du logarithme naturel de Z est donnée dans l'histogramme ci-dessous. Cela ressemble très clairement à une distribution normale, suggérant que est en effet lognormal.Z

entrez la description de l'image ici

Quelqu'un a-t-il un aperçu ou des références à des textes qui peuvent être utiles pour comprendre cela?

Petit pâté
la source
Supposez-vous des variances égales pour et ? Si vous simulez , le journal de la somme ne semble plus très normal. YXYxx <- rlnorm(1e6,0,3); yy <- rlnorm(1e6,0,1)
Stephan Kolassa
J'ai supposé des variances égales - je vais en essayer une autre avec une variance inégale et voir ce que je me retrouve.
Patty
Avec des variances de 2 et 3, j'ai obtenu quelque chose qui semblait toujours un peu normal, albiet avec ce qui ressemble à un minuscule petit biais.
Patty
1
Il peut être utile de parcourir les questions précédentes . Ici et ici sont des articles potentiellement utiles. Bonne apparence!
Stephan Kolassa

Réponses:

20

Cette lognormalité approximative des sommes de lognormales est une règle empirique bien connue; il est mentionné dans de nombreux articles - et dans un certain nombre d'articles sur le site.

Une approximation lognormale pour une somme de lognormales en faisant correspondre les deux premiers moments est parfois appelée une approximation de Fenton-Wilkinson.

Vous pouvez trouver ce document de Dufresne utile (disponible ici ou ici ).

J'ai également, dans le passé, parfois pointé des gens vers le document de Mitchell

Mitchell, RL (1968),
«Permanence de la distribution log-normale».
J. Optical Society of America . 58: 1267-1272.

Mais c'est désormais couvert dans les références de Dufresne.

Mais alors qu'il tient dans un ensemble assez large de cas pas trop asymétriques, il ne tient pas en général, pas même pour les lognormales iid, pas même lorsque devient assez grand.n

Voici un histogramme de 1000 valeurs simulées, chacune le log de la somme de cinquante mille log-normales iid:

histogramme d'une somme de cinquante mille lognormales

Comme vous le voyez ... le journal est assez asymétrique, donc la somme n'est pas très proche de lognormale.

En effet, cet exemple serait également considéré comme un exemple utile pour les personnes qui pensent (en raison du théorème de la limite centrale) que certains sur des centaines ou des milliers donneront très près des moyennes normales; celui-ci est tellement asymétrique que son logarithme est considérablement asymétrique à droite, mais le théorème de la limite centrale s'applique néanmoins ici; un de plusieurs millions * serait nécessaire avant qu'il ne commence à se rapprocher de la symétrie.nnn

* Je n'ai pas essayé de savoir combien mais, en raison du comportement de l'asymétrie des sommes (de manière équivalente, des moyennes), quelques millions seront clairement insuffisants


Étant donné que plus de détails ont été demandés dans les commentaires, vous pouvez obtenir un résultat similaire à l'exemple avec le code suivant, qui produit 1000 répliques de la somme de 50 000 variables aléatoires lognormales avec le paramètre d'échelle et le paramètre de forme :μ=0σ=4

res <- replicate(1000,sum(rlnorm(50000,0,4)))
hist(log(res),n=100)

(J'ai depuis essayé Son journal est toujours fortement asymétrique à droite)n=106

Glen_b -Reinstate Monica
la source
Pouvez-vous s'il vous plaît ajouter les paramètres (ou extrait de code) utilisés pour créer l'histogramme dans la figure?
altroware
1
C'était il y a deux ans, je ne me souviens pas quels étaient les paramètres lognormaux. Mais appliquons une logique simple. Vous n'aurez pas à vous soucier du paramètre , car il n'affecte que les valeurs sur l'échelle de l'axe des x, pas la forme (quelque chose de pratique comme serait utilisé). Cela laisse donc le paramètre comme le seul avec un impact sur la forme. En supposant que et en revenant à peu près à l'échelle de l'histogramme ci-dessus, nous obtenons que doit être dans le stade approximatif de (notez bien à quel point cela est asymétrique). Et juste essayer donne une apparence assez similaire à ce qui précède. μ = 0 σ μ = 0 σμμ=0σμ=0σ444
Glen_b -Reinstate Monica
1
Donc: res <- replicate(1000,sum(rlnorm(50000,0,4))); hist(log(res),n=100)... si vous l'essayez plusieurs fois, vous verrez l'échelle sauter un peu mais l'image générale est à peu près correcte. Notez que l'inclinaison de moment de la population des lognormales composantes est de milliards - la moyenne de la population dépassera presque toutes les valeurs générées dans la plupart de vos échantillons. 26.5
Glen_b -Reinstate Monica
2

Il est probablement trop tard, mais j'ai trouvé l'article suivant sur les sommes des distributions log-normales , qui couvre le sujet. Ce n'est pas normal, mais quelque chose de très différent et difficile à travailler.

Ivan Svetunkov
la source
1

Le document par Dufresne de conseillé 2009 et ce celui de 2004 en même temps que ce document utile couverture de l'histoire sur les approximations de la somme de la distribution log-normale et donne somme résultat mathématique.

Le problème est que toutes les approximations qui y sont citées sont trouvées en supposant au départ que vous êtes dans un cas où la somme des distributions log-normales est toujours log-normale. Ensuite, vous pouvez calculer le et le de la somme globale d'une manière approximative. Mais cela ne vous donne pas les conditions que vous devez remplir si vous voulez que la somme soit toujours normale.σμσ

Peut-être que [cet article] ( http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=6029348 ) vous donne dans un cas particulier une sorte de théorème central limite pour la somme des log-normales mais il y a encore un manque de généralité. Quoi qu'il en soit, l'exemple donné par Glen_b n'est pas vraiment approprié, car c'est un cas où vous pouvez facilement appliquer le théorème de la limite centrale classique, et bien sûr dans ce cas, la somme de log-normale est gaussienne.

Mais il est vrai, comme indiqué dans l'article cité ci-dessus, que même dans la limite vous pouvez avoir une somme log-normale (par exemple si les variables sont corrélées ou suffisamment non iid ) n

Mimì
la source
1
Vous dites que dans mon exemple "vous pouvez facilement appliquer le théorème de la limite centrale classique" mais si vous comprenez ce que l'histogramme montre, vous ne pouvez clairement pas utiliser le CLT pour argumenter qu'une approximation normale s'applique à n = 50000 pour ce cas; la somme est si asymétrique à droite que son journal est toujours fortement asymétrique à droite. Le point de l'exemple était qu'il est même trop asymétrique pour être approximé par une lognormale (ou que l'histogramme aurait l'air très proche de symétrique). Une approximation moins asymétrique (comme la normale) serait * pire * /
Glen_b -Reinstate Monica
Je suis d'accord, mais probablement dans votre exemple, la convergence numérique de l'échantillon n'est pas atteinte (1000 essais sont trop peu nombreux) ou la convergence statistique n'est pas atteinte (50 000 addends sont trop peu nombreux), mais pour dans la limite de l'infini la distribution devrait être gaussien, puisque nous sommes en conditions CLT, n'est-ce pas?
Mimì
Les 1000 échantillons sont plus que suffisants pour discerner la forme de la distribution de la somme - le nombre d'échantillons que nous prenons ne modifie pas la forme, à quel point "clairement" nous la voyons. Cette asymétrie claire ne disparaîtra pas si nous prenons un échantillon plus grand, cela va juste devenir plus lisse. Oui, 50 000, c'est trop peu pour que la somme ait l'air normale - c'est tellement asymétrique que le journal semble toujours très asymétrique. Cela pourrait bien nécessiter plusieurs millions avant de paraître raisonnablement normal. Oui, le CLT s'applique définitivement; c'est iid et la variance est finie, donc les moyens standardisés doivent finalement s'approcher de la normalité.
Glen_b -Reinstate Monica
1

La loi lognormale est largement présente sur les phénomènes physiques, des sommes de ce type de distributions variables sont nécessaires par exemple pour étudier tout comportement de mise à l'échelle d'un système. Je connais cet article (très long et très fort, le début peut être compris si vous n'êtes pas spéciliste!), "Large distribution effects in sums of lognormal random variables" publié en 2003, (European Physical Journal B-Condensed Matter and Complex Systems 32, 513) et est disponible https://arxiv.org/pdf/physics/0211065.pdf .

Victor
la source