Références justifiant l'utilisation de mélanges gaussiens

14

Les modèles de mélange gaussiens (GMM) sont attrayants car ils sont simples à utiliser à la fois en analyse et en pratique, et sont capables de modéliser certaines distributions exotiques sans trop de complexité. Il y a quelques propriétés analytiques que nous devrions nous attendre à conserver qui ne sont pas claires en général. En particulier:

  • Disons que Sn est la classe de tous les mélanges gaussiens à n composants. Pour toute distribution continue P sur les réels, avons-nous la garantie qu'à mesure que n croît, nous pouvons approcher P avec un GMM avec une perte négligeable au sens d'entropie relative? C'est, ne
    limninfP^SnD(P||P^)=0?
  • Disons que nous avons une distribution continue P et nous avons identifié un N monocomposant mélange gaussien P qui est proche de P dans la variation totale: δ ( P , P ) < ε . Peut - on lié D ( P | | P ) en termes de ε ?P^Pδ(P,P^)<εD(P||P^)ϵ
  • Si nous voulons observer XPX par le bruit additif indépendant YPY (réelle, continue), et nous avons GMM X ~ Q X , Y ~ Q Nδ ( P , Q ) < ε , alors cette valeur est-elle petite: | m m de e ( le X | X + Y ) - m m de l'e ( XX^QX,Y^QNδ(P,Q)<ϵ
    |mmse(X|X+Y)mmse(X^|X^+Y^)|,
    Autrement ditestil vrai queestimationXparYestbruitpeu près aussi difficile queestimation de X par Y bruit?X^Y^
  • Pouvez-vous le faire pour des modèles de bruit non additifs comme le bruit de Poisson?

Jusqu'à présent, ma (courte) revue de la littérature vient de révéler des didacticiels très appliqués. Quelqu'un at-il des références qui démontrent rigoureusement dans quelles conditions nous sommes justifiés d'utiliser des modèles de mélange?

enthdegree
la source
3
L'ensemble des GMM est dense dans l'ensemble des distributions dans la topologie faible (correspondant à la convergence dans la distribution); voir par exemple ici . Je ne suis pas sûr que votre première déclaration contient, mais il aurait certainement besoin d' éléments permettant zéro la variance dans le mélange pour traiter des masses ponctuelles dans . Je suis également sceptique quant au deuxième point, encore une fois à cause du problème des masses ponctuelles. P
Dougal
1
Bon point, j'ai spécifié que tout devait être continu
enthdegree
1
Vous pourriez avoir plus de chance en regardant la littérature sur l'estimation de la densité du noyau avec les noyaux gaussiens. Étant donné que vous avez un mélange de gaussiens avec un par échantillon, à mesure que le nombre d'échantillons augmente, obtenez-vous un estimateur asymptotiquement non biaisé et cohérent de la distribution? Je pense que la réponse est oui, mais je n'ai pas pu trouver immédiatement une référence.
Greg Ver Steeg
2
@enthdegree: Très bonne question. Parce que vous voulez utiliser des topologies fortes (divergence KL et variation totale), la réponse générale à vos deux premiers points est non: par exemple, considérez une distribution à queue grasse; Le KL à tout mélange gaussien fini est infini (je suis sûr que cela fonctionne, mais pas à 100%). Mais cela conduit à la question beaucoup plus intéressante, pour quelle sous-classe de distributions de probabilités tous vos puces s'appliqueraient-ils? Je ne connais pas la réponse mais cela semble extrêmement intéressant. Je suppose que c'est probablement presque toutes les distributions de probabilité.
Guillaume Dehaene
1
J'ai pris un cours avec ce livre. link Il fait un peu de fond décent sur les fondamentaux.
EngrStudent

Réponses:

0

En économétrie, où le contexte est celui des distributions mixtes des coefficients dans les modèles logit, la référence standard est: MODÈLES MIXTES MNL POUR UNE RÉPONSE DISCRETE DANIEL MCFADDEN ET KENNETH TRAIN, JOURNAL OF APPLIED ECONOMETRICS, J. Appl. Econ. 15: 447-470 (2000).

Tim
la source
0

Concernant vos questions:

  1. Pour le problème bayésien très similaire du mélange de gaussiens de Dirichlet Process, je comprends que la réponse est oui. Ghosal (2013) .
  2. Lorsque j'ai assisté à quelques discussions sur ce sujet, il semblait que des progrès avaient été réalisés principalement en utilisant la divergence KL. Voir les diapositives de Harry van Zanten .
  3. Je ne suis pas clair. Cependant, cela ressemble à un problème de séparation des sources ( inconnu). Celles-ci sont généralement beaucoup plus difficiles que la modélisation de mélange seule. En particulier pour le cas simple de P N = P S = N ( 0 , 1 ), vous ne pourrez pas identifier les vrais X et YPN,PSPN=PS=N(0,1)XY raison de la symétrie des distributions autour de zéro.
  4. Voir la quatrième des diapositives liées ci-dessus, il y a une liste de modèles bayésiens pour lesquels les garanties de convergence sont valables.
conjectures
la source
0

Voici une réponse partielle.

Disons que est la classe de tous les mélanges gaussiens à n composants. Pour toute distribution continue P sur les réels, avons-nous la garantie qu'à mesure que n croît, nous pouvons approcher P avec un GMM avec une perte négligeable au sens d'entropie relative? C'est, ne lim n inf PS n D ( P | | P ) = 0 ?SnnPnP

limninfP^SnD(P||P^)=0?

Non . Vous ne pouvez espérer qu'une divergence KL est faible si vous savez que Q « s queues sont finalement du même ordre que P » s. Ce n'est pas vrai en général. Il n'est pas difficile de voir que pour P Cauchy alors pour tout n , inf PS n D ( P | |D(PQ)QPPn

infP^SnD(P||P^)=

Plus de conditions sur P sont nécessaires pour dire cela.

Disons que nous avons une distribution continue et nous avons identifié un N monocomposant mélange gaussien P qui est proche de P dans la variation totale: δ ( P , P ) < ε . Peut - on lié D ( P | | PPNP^Pδ(P,P^)<ε en termes de ε ?D(P||P^)ϵ

Non. Le même exemple ci-dessus s'applique.

XPXYPYX^QX,Y^QYδ(P,Q)<ϵ

|mmse(X|X+Y)mmse(X^|X^+Y^)|,
XY le bruit est aussi difficile que d'estimer X^ through Y^ noise?

I don't know. If X,Y,X^,Y^ have finite mean and variance then the MMSEs are E[X|Y] and E[X^|Y^] (simple derivation here). With these assumptions, the object is to determine whether |EP[(EP[X|Y]X)2]EQ[(EQ[X|Y]X)2]| is small when TV(P,Q) is small. Related.

I haven't been able to prove this, either in general or using the extra additive structure we have assumed on P,Q, or come up with any counterexamples.

Can you do it for non-additive noise models like Poisson noise?

This is ambiguous. In the context of the previous question, if the statement in that answer can be proven in general then the answer is yes.

enthdegree
la source