Supposons que j'ai deux distributions normales A et B avec les moyennes et et les variances et . Je veux prendre un mélange pondéré de ces deux distributions en utilisant les poids et où et . Je sais que la moyenne de ce mélange serait .
Quelle serait la variance?
Un exemple concret serait si je connaissais les paramètres de répartition de la taille des hommes et des femmes. Si j'avais une pièce composée à 60% d'hommes, je pourrais produire la hauteur moyenne attendue pour toute la pièce, mais qu'en est-il de la variance?
normal-distribution
mixture
JoFrhwld
la source
la source
Réponses:
La variance est le deuxième moment moins le carré du premier moment, il suffit donc de calculer des moments de mélanges.
En général, étant donné les distributions avec PDFs et les poids constants (non aléatoires) , le PDF du mélange estfi pi
à partir de laquelle il suit immédiatement pour tout moment quek
J'ai écrit pour le moment de et pour le moment de .μ(k) kth f μ(k)i kth fi
En utilisant ces formules, la variance peut être écrite
De façon équivalente, si les variances du sont données sous la forme , alors , permettant d' écrire la variance du mélange en termes de variances et de moyennes de ses composants ainsi quefi σ2i μ(2)i=σ2i+(μ(1)i)2 f
En mots, il s’agit de la variance moyenne (pondérée) plus la moyenne quadratique moyenne moins le carré de la moyenne. Parce que la quadrature est une fonction convexe, Inégalité de Jensen affirme que la moyenne quadratique moyenne ne peut être inférieure au carré de la moyenne moyenne. Cela nous permet de comprendre la formule en indiquant que la variance du mélange est le mélange des variances plus un terme non négatif représentant la dispersion (pondérée) des moyennes.
Dans votre cas, la variance est
Nous pouvons interpréter cela comme un mélange pondéré des deux variances, , plus un terme de correction (nécessairement positif) pour tenir compte des écarts entre les moyennes individuelles et la moyenne globale des mélanges.pAσ2A+pBσ2B
L'utilité de cette divergence dans l'interprétation des données, telle que donnée dans la question, est douteuse, car la distribution du mélange ne sera pas normale (et peut s'en écarter sensiblement, au point de montrer une bimodalité).
la source