Pourquoi un mélange de deux variables normalement distribuées n'est-il bimodal que si leurs moyennes diffèrent d'au moins deux fois l'écart type commun?

28

Sous mélange de deux distributions normales:

https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions

"Un mélange de deux distributions normales a cinq paramètres à estimer: les deux moyennes, les deux variances et le paramètre de mélange. Un mélange de deux distributions normales avec des écarts-types égaux n'est bimodal que si leurs moyennes diffèrent d'au moins deux fois l'écart-type commun . "

Je cherche une dérivation ou une explication intuitive pour expliquer pourquoi cela est vrai. Je pense que cela peut être expliqué sous la forme d'un test t à deux échantillons:

μ1μ2σp

où est l'écart type groupé.σp

M Waz
la source
1
l'intuition est que, si les moyennes sont trop proches, alors il y aura trop de chevauchement dans la masse des 2 densités de sorte que la différence de moyennes ne sera pas vue car la différence ne fera que disparaître avec la masse des deux densités. Si les deux moyennes sont suffisamment différentes, alors les masses des deux densités ne se chevaucheront pas beaucoup et la différence dans les moyennes sera discernable. Mais j'aimerais voir une preuve mathématique de cela. C'est une déclaration intéressante. Je ne l'ai jamais vu auparavant.
mlofton
2
Plus formellement, pour un mélange 50:50 de deux distributions normales avec le même SD σ, si vous écrivez la densité f(x)=0.5g1(x)+0.5g2(x) en pleine forme montrant les paramètres, vous voir que sa dérivée seconde change de signe au milieu entre les deux moyennes lorsque la distance entre les moyennes passe de moins de 2σ à plus haut.
BruceET
1
Voir «Rayleigh Criterion», en.wikipedia.org/wiki/Angular_resolution#Explanation
Carl Witthoft

Réponses:

53

Cette figure du papier lié dans cet article wiki fournit une belle illustration: entrez la description de l'image ici

La preuve qu'ils fournissent est basée sur le fait que les distributions normales sont concaves dans une SD de leur moyenne (la SD étant le point d'inflexion du pdf normal, où elle passe de concave à convexe). Ainsi, si vous ajoutez deux pdfs normaux ensemble (dans des proportions égales), alors tant que leurs moyennes diffèrent de moins de deux SD, la somme-pdf (c'est-à-dire le mélange) sera concave dans la région entre les deux moyennes, et donc le maximum global doit se situer exactement entre les deux moyennes.

Référence: Schilling, MF, Watkins, AE et Watkins, W. (2002). La taille humaine est-elle bimodale? The American Statistician, 56 (3), 223-229. doi: 10.1198 / 00031300265

Ruben van Bergen
la source
11
+1 Ceci est un argument agréable et mémorable.
whuber
2
La légende de la figure fournit également une belle illustration de la ligature «fl» mal interprétée lors de «l'inflexion» :-P
nekomatic
2
@Axeman: Merci d'avoir ajouté cette référence - puisque cela a explosé un peu, j'avais prévu de l'ajouter moi-même, car je ne fais que répéter leur argument et je ne veux pas en prendre trop à cœur.
Ruben van Bergen
14

C'est un cas où les images peuvent être trompeuses, car ce résultat est une caractéristique particulière des mélanges normaux : un analogique ne tient pas nécessairement pour les autres mélanges, même lorsque les composants sont des distributions unimodales symétriques! Par exemple, un mélange égal de deux distributions de Student t séparées par un peu moins du double de leur écart-type commun sera bimodal. Pour une réelle compréhension, nous devons faire quelques calculs ou faire appel aux propriétés spéciales des distributions normales.


Choisissez des unités de mesure (en recentrant et en redimensionnant au besoin) pour placer les moyennes des distributions des composants à et pour faire leur unité de variance commune. Soit la quantité de la composante moyenne la plus grande dans le mélange. Cela nous permet d'exprimer la densité du mélange en général comme±μ, μ0,p, 0<p<1,

2πf(x;μ,p)=pexp((xμ)22)+(1p)exp((x+μ)22).

Étant donné que les deux densités de composants augmentent où et diminuent où les seuls modes possibles se produisent où Trouvez-les en différenciant par rapport à et en le mettant à zéro. Effacer tous les coefficients positifs que nous obtenonsx<μx>μ,μxμ.fx

0=e2xμp(xμ)+(1p)(x+μ).

L'exécution d'opérations similaires avec la dérivée seconde de et le remplacement de par la valeur déterminée par l'équation précédente nous indiquent que le signe de la dérivée seconde à tout point critique est le signe defe2xμ

f(x;μ,p)(1+x2μ2)xμ.

Le dénominateur étant négatif lorsque le signe de est celui deIl est clair que lorsque le signe doit être négatif. Dans une distribution multimodale, cependant (parce que la densité est continue), il doit y avoir une antimode entre deux modes quelconques, où le signe n'est pas négatif. Ainsi, lorsque est inférieur à (l'écart-type), la distribution doit être unimodale.μ<x<μ,f(1μ2+x2).μ1,μ1

La séparation des moyennes étant de la conclusion de cette analyse est2μ,

Un mélange de distributions normales est unimodal chaque fois que les moyennes sont séparées par au plus le double de l'écart type commun.

C'est logiquement équivalent à la déclaration de la question.

whuber
la source
12

Commentaire ci-dessus collé ici pour la continuité:

f(x)=0.5g1(x)+0.5g2(x)

Suite du commentaire:

σ=1.3σ,2σ,σ,

entrez la description de l'image ici

Code R pour la figure:

par(mfrow=c(1,3))
  curve(dnorm(x, 0, 1)+dnorm(x,3,1), -3, 7, col="green3", 
    lwd=2,n=1001, ylab="PDF", main="3 SD: Dip")
  curve(dnorm(x, .5, 1)+dnorm(x,2.5,1), -4, 7, col="orange", 
    lwd=2, n=1001,ylab="PDF", main="2 SD: Flat")
  curve(dnorm(x, 1, 1)+dnorm(x,2,1), -4, 7, col="violet", 
    lwd=2, n=1001, ylab="PDF", main="1 SD: Peak")
par(mfrow=c(1,3))
BruceET
la source
1
toutes les réponses étaient excellentes. Merci.
mlofton
3
2/30.001.
1
0.1% fx0)
f(x0)f(x)0.001f(x0)  |xx0|0.333433,
0.0010.95832
f(x0)f(x)0.001  |xx0|0.47916.
Bons points. En fait, ce que je voulais dire par langage abrégé «plat» était une dérivée 2e nulle exactement au milieu.
BruceET