Comment prouver cette inégalité du mélange gaussien? (Ajustement / Sur-ajustement)

8

Soit f [x] un mélange gaussien pdf avec n termes de poids uniforme, signifie , et les variances correspondantes :{μ1,...,μn}{σ1,...,σn}

f(x)1ni=1n12πσi2e(xμi)22σi2

Il semble intuitif que la log-liklihood échantillonnée aux n centres gaussiens serait supérieure (ou égale) à la log-liklihood moyenne:

1nj=1nln(f(μj))f(x)ln(f(x))dx

C'est évidemment vrai pour les petites variances (chaque est au-dessus d'une étroite gaussienne) et pour les très grandes variances (toutes les sont au sommet d'une large gaussienne ensemble), et cela a été vrai chaque ensemble de et que j'ai généré et optimisé, mais je ne sais pas comment prouver que c'est toujours vrai. Aidez-moi?μiμiμiσi

Jerry Guern
la source
Vous manquez probablement une attente sur le lhs?
lacerbi
@lacerbi Non, je ne le suis pas. Rien ne manque. Sur la partie gauche, la est évaluée au indexé « sf(x)xi
Jerry Guern
Ouais, désolé - j'avais trop sommeil et j'ai mal lu la définition.
lacerbi

Réponses:

2

Il s'agit plus d'un commentaire étendu, alors prenez-le comme tel. Définissez: (j'utilise la norme notation pour les distributions gaussiennes).

f(x)1ni=1nN(x|xi,σi2)

Vous voulez prouver que: qui est

1ni=1nlogf(xi)f(x)logf(x)dx0
{1ni=1nlogf(xi)}+H[f]0.

En raison de l'inégalité de Jensen (voir par exemple Huber et al., On Entropy Approximation for Gaussian Mixture Random Vectors, 2008 ), avec , qui provient de la convolution de deux densités gaussiennes. Nous obtenons donc: Fait intéressant, les sont toujours des mélanges de gaussiens avec des moyennes de composants égales à celles de

H[f]1ni=1nlogf(x)N(x|xi,σi2)dx=1ni=1nloggi(xi)
gi(x)1nj=1nN(x|xj,σi2+σj2)
{1ni=1nlogf(xi)}+H[f]1ni=1nlogf(xi)gi(xi).
gif, mais chaque composante de a une variance strictement plus grande que sa composante correspondante dans . Pouvez-vous faire quelque chose avec ça?gif
lacerbi
la source
Je vous remercie. Il semble que j'aurais juste à prouver que le RHS final est> = 0, ce qui semble également intuitif mais difficile à prouver, mais c'est en effet un pas dans la bonne direction. J'ai déjà vu ce document.
Jerry Guern
Il est tentant de penser que l'ERS final est toujours positif, mais je ne peux pas non plus le prouver.
Jerry Guern
0

Je crois que j'ai compris. Cela ne prend que des étapes élémentaires, bien que vous deviez les combiner correctement.

Notons la densité du ème gaussien, c'est-à-direfii12πσi2e(xμi)22σi2

Nous commençons par l'inégalité de Jensen. La fonction est convexe, d'où nous avons: . Après l'intégration, nous obtenons: Edit: l'inégalité ci-dessous est fausse, tout comme la solution elle-mêmeg(x)=xlog(x)f(x)log(f(x))1ni=1nfi(x)log(fi(x))

f(x)log(f(x))dx1ni=1nfi(x)log(fi(x))dx

Maintenant le RHS. Pour tout nous avons , donc: D'où: Il nous reste à prouver: Mais nous avons: En sommant et en divisant par on obtient quoi Nous avions besoiniffi

log(f(μi))log(fi(μi))
1ni=1nlog(f(μi))1ni=1nlog(fi(μi))
1ni=1nlog(fi(μi))1ni=1nfi(x)log(fi(x))
log(fi(μi))=fi(x)log(fi(μi))dxfi(x)log(fi(x))dx
in
sjm.majewski
la source
Je suis confus. Vous avez défini ag (x) mais ne l'avez jamais utilisé, et je ne sais pas ce que signifie votre f_i.
Jerry Guern
J'ai ajouté la définition de , désolé. J'utilise uniquement pour l'inégalité de Jensen, c'est-à-direfigg(1ni=1nfi(x))1ni=1ng(fi(x))
sjm.majewski
Vous déclarez que n'est correct que si le poids fait partie de la définition de mais ce n'est pas le cas, et l'ajouter à nouveau dans le gâchis la première partie de votre preuve. f>=fi1/nfi
Jerry Guern
1
Cette instruction n'est pas correcte:1ni=1nlog(f(μi))1ni=1nlog(fi(μi))
Jerry Guern
1
Ouais, je l'ai réalisé hier. On dirait que cette inégalité est assez difficile, je vais quand même laisser ma réponse avec une modification.
sjm.majewski