Dériver la négentropie. Être coincé

13

Donc, cette question est quelque peu impliquée, mais j'ai soigneusement essayé de la rendre aussi simple que possible.

Objectif: Bref, il y a une dérivation de la néguentropie qui n'implique pas de cumulants d'ordre supérieur, et j'essaie de comprendre comment elle a été dérivée.

Contexte: (je comprends tout cela)

J'étudie moi-même le livre «Independent Component Analysis» , qui se trouve ici. (Cette question provient de la section 5.6, au cas où vous auriez le livre - «Approximation of Entropy by Nonpolynomial Functions»).

Nous avons , qui est une variable aléatoire, et dont nous voulons estimer la néguentropie, à partir de quelques observations que nous avons. Le PDF de est donné par . La négentropie est simplement la différence entre l'entropie différentielle d'une variable aléatoire gaussienne normalisée et l'entropie différentielle de . L'entropie différentielle ici est donnée par , telle que:xxpx(ζ)xH

H(x)=px(ζ)log(px(ζ))dζ

et donc, la néguentropie est donnée par

J(x)=H(v)H(x)

où est un rv gaussien normalisé, avec PDF donné par \ phi (\ zeta) .vϕ(ζ)

Maintenant, dans le cadre de cette nouvelle méthode, mon livre a dérivé une estimation du PDF de x , donnée par:

px(ζ)=ϕ(ζ)[1+iciFi(ζ)]

(Où . Soit dit en passant, n'est pas une puissance, mais un index à la place).ici=E{Fi(x)}i

Pour l'instant, j'accepte cette nouvelle formule PDF et je vous demanderai à ce sujet un autre jour. Ce n'est pas mon principal problème. Ce qu'il fait maintenant, cependant, rebranche cette version du PDF de dans l'équation de la néguentropie, et se retrouve avec:x

J(x)12iE{Fi(x)}2

Gardez à l'esprit, le sigma (ici et pour le reste de l'article), fait juste une boucle autour de l'indice . Par exemple, si nous n'avions que deux fonctions, le signal serait bouclé pour et . Bien sûr, je devrais vous parler de ces fonctions qu'il utilise. Donc apparemment, ces fonctions sont définies comme suit:ii=2i=2Fi

Les fonctions ne sont pas des fonctions polynomiales dans ce cas. (Nous supposons que le rv est une moyenne nulle et de variance unitaire). Maintenant, faisons quelques contraintes et donnons les propriétés de ces fonctions:Fix

Fn+1(ζ)=ζ,cn+1=0

Fn+2(ζ)=ζ2,cn+1=1

Pour simplifier les calculs, faisons une autre hypothèse, purement technique: Les fonctions , forment un système orthonormé, comme tel:Fi,i=1,...n

ϕ(ζ)Fi(ζ)Fj(ζ)dζ={1,if i=j0,if ij

et

ϕ(ζ)Fi(ζ)ζkd(ζ)=0,for k=0,1,2

Presque là! OK, donc tout cela était le fond, et maintenant pour la question. La tâche consiste alors à simplement placer ce nouveau PDF dans la formule d'entropie différentielle, . Si je comprends cela, je comprendrai le reste. Maintenant, le livre donne la dérivation, (et je suis d'accord avec lui), mais je suis coincé vers la fin, parce que je ne sais pas / ne vois pas comment il annule. De plus, je ne sais pas comment interpréter la notation small-o de l'expansion de Taylor.H(x)

Voici le résultat:

En utilisant le expansion de Taylor , pour nous obtenons:H(x)(1+ϵ)log(1+ϵ)=ϵ+ϵ22+o(ϵ2)H(x)

H(x)=ϕ(ζ)(1+ciFi(ζ))(log(1+ciFi(ζ)+log(ζ))d(ζ)=ϕ(ζ)log(ζ)ϕ(ζ)ciFi(ζ)log(ϕ(ζ))ϕ(ζ)[ciFi(ζ)+12(ciFi(ζ))2+o((ciFi(ζ))2)]

et donc

La question: (je ne comprends pas cela)

H(x)=H(v)0012ci2+o((ci)2

Donc, mon problème: à l'exception du , je ne comprends pas comment il a obtenu les 4 derniers termes de la dernière équation. (c.-à-d. le 0, le 0 et les 2 derniers termes). Je comprends tout avant ça. Il dit qu'il a exploité les relations d'orthogonalité données dans les propriétés ci-dessus, mais je ne vois pas comment. (Je ne comprends pas non plus la notation du petit o ici, dans le sens de, comment est-elle utilisée?)H(v)

MERCI!!!!

ÉDITER:

Je suis allé de l'avant et j'ai ajouté les images du livre que je lis, cela dit à peu près ce que j'ai dit ci-dessus, mais juste au cas où quelqu'un aurait besoin d'un contexte supplémentaire.

entrez la description de l'image ici entrez la description de l'image ici entrez la description de l'image ici

Et ici, marqué en rouge, c'est la partie exacte qui me déroute. Comment utilise-t-il les propriétés d'orthogonalité pour obtenir cette dernière partie, où les choses s'annulent, et les sommations finales impliquant , et la sommation de notation en petit o?ci2

Spacey
la source
1
Astuce : Écrivez explicitement et utilisez les hypothèses énoncées par l'auteur pour obtenir les zéros pour les deux termes moyens. Il doit y avoir plusieurs fautes de frappe, y compris dans la citation de bloc; Par exemple, le apparaît au mauvais endroit dans la définition de base orthonormée que vous donnez. logϕ(x)
cardinal
@cardinal Ok, corrigé la faute de frappe, merci. Cela étant dit, je ne sais pas comment il procède à l'annulation. J'ai ajouté les images réelles entre le livre lui-même.
Spacey
2
Honnêtement, je ne sais pas non plus comment ni pourquoi cela a été migré hors du site de mathématiques. En tout cas, je suis heureux de l'avoir ici, où il est également à la maison. Vous avez consacré beaucoup d'efforts à la question. :-)
Cardinal
2
@cardinal Cela me fait tellement plaisir de vous entendre dire cela. :-) Oui, j'espère que cet investissement d'autoformation sera payant un jour. ;-)
Spacey
2
Ça va, @Mohammad, ça va! L'ICA est également un sujet très intéressant :-).
Néstor

Réponses:

9

Tout d'abord, rappelez-vous que les sont des constantes (ce sont des valeurs d'espérance, des nombres!) Afin qu'elles puissent être prises en dehors des intégrales (si vous ne pouvez pas le voir, notez que Si la notation vous dérange, changez simplement par sur le ).ci

ci=p0(ξ)Gi(ξ)dξ.
ξξci

>> Pour obtenir les termes zéro:

Rappelez-vous que . Comme suggéré par @cardinal, vous devez écrire explicitement , qui est égal à: Avec ceci à portée de main, il suffit de noter que: où J'ai laissé tomber les constantes en dehors des intégrales.φ(ξ)=exp(ξ2/2)/2πlogφ(ξ)

logφ(ξ)=ξ2/2log2π.
ciφ(ξ)Gi(ξ)logφ(ξ)=12ciφ(ξ)Gi(ξ)ξ2log2πciφ(ξ)Gi(ξ),   (1)

De là, notez que dans (5.39), il est indiqué que est pour . L'intégrale sur le premier terme à droite de l'éq. est de cette forme (avec ) et l'intégrale dans le deuxième terme aussi (avec ). Il vous suffit d'exploiter ce fait sur les sommes et vous avez terminé!φ(ξ)Fi(ξ)ξk0k=0,1,2(1)k=2k=0

>> Pour obtenir les termes :ci2

Notez que l'intégrale à obtenir pour obtenir ces termes est: Nous pouvons utiliser le théorème multinomial pour étendre la somme au carré. Cela nous donne: Cependant, à partir de (5.39), notez que tous les termes de cette somme qui incluent des intégrales pour la forme sont nuls pour et un pour . Cela nous laisse avec le résultat

φ(ξ)(i=1nciGi(ξ))2dξ.
φ(ξ)k1+k2+...kn=22!k1!k2!...kn!1tn(ctGt(ξ))ktdξ.
φ(ξ)Gi(ξ)Gj(ξ)dξ
iji=j
φ(ξ)(ciGi(ξ))2dξ=ci2.

>> À propos de la notationo(whatever)

Je pense que c'est assez déroutant de la part des auteurs, mais je me souviens qu'ils l'utilisent juste pour signifier qu'il y a des termes de commande chaque fois qu'ils mettent (c'est-à-dire, tout comme le grand -O notation). Cependant, comme @Macro a commenté cette même réponse, il y a une différence entre la notation big-O et la petite-O. Vous devriez peut-être vérifier par vous-même et voir celui qui convient au problème dans cet article Wikipedia .whatevero(whatever)

PS: C'est un super livre au fait. Les articles des auteurs sur le sujet sont également très bons et sont à lire si vous essayez de comprendre et de mettre en œuvre l'ICA.

Néstor
la source
1
(+1) Bonne réponse. Si les sommes sont infinies, nous devons faire plus attention à les échanger avec l'intégrale. S'ils sont finis (comme le suggère l'OP, mais je n'ai pas regardé les images de près), alors tout est simple, comme vous l'avez montré. :-)
Cardinal
Ah oui! Merci Nestor, mais qu'en est-il des deux derniers résultats, c'est-à-dire la sommation avec le et la sommation avec la partie notation petit-o? ci2
Spacey
1
@cardinal: Oh oui! Ils SONT finis (je ne sais pas pourquoi je les ai écrits où infinis ...). J'ai changé cela dans ma réponse.
Néstor
@Mohammad, j'écris sur mes réponses vos deux autres questions ;-).
Néstor
1
@ Néstor, +1 à cette réponse mais re: votre dernier commentaire, je pense qu'il y a une distinction entre la notation big-O et little-o .
Macro