En utilisant la notation de la page wikipedia ( https://en.wikipedia.org/wiki/Exponential_family ), une famille exponentielle est une famille de distributions de probabilités qui ont pmfs / pdfs qui peuvent être écrites comme (notant que θ , x peut être valeur du vecteur):
fθ(x)=h(x)exp[η(θ)Tt(x)−A(θ)]
où
η(θ)=η sont les les paramètres naturels,
t(x) sont les statistiques suffisantes, et
A(θ) est le normalisateur de journal (parfois appelé la fonction de partition de journal). La raison pour laquelle
A(θ) est appelé le normalisateur de journal, car il peut être vérifié que, dans le cas continu, pour que ce soit un pdf valide, nous devons avoir
A(θ)=log[∫h(x)exp[η(θ)Tt(x)]dx],
et dans le cas discret, pour que ce soit un pmf valide , nous devons avoir
Dans chaque cas, nous remarquons que et sont les constantes de normalisation des distributions, d'où le nom du normalisateur de journaux.
UNE ( θ ) = log[∑Xh ( x ) exp[ η( θ)Tt ( x ) ] ] .
∫h ( x )exp[η( θ)Tt ( x ) ] dX∑Xh ( x )exp[η( θ)Tt ( x ) ]
Maintenant, pour voir la relation spécifique entre la fonction softmax et la distribution catégorielle dimensionnelle, nous devrons utiliser une paramétrisation spécifique de la distribution. A savoir, que soit tel que et , et définissez (en laissant ). Le pmf pour cette distribution est (en laissant être un seul vecteur chaud, c'est-à-dire et pour ):
kθ1,⋯,θk−10<θ1,⋯,θk−1∑k−1i=1θi<1θk=1−∑k−1i=1θiθ=(θ1,⋯,θk)x=(x1,⋯,xk)xi=1xj=0i≠j
fθ(x)=∏i=1kθxii.
Pour écrire ceci comme une famille exponentielle, notez que , , et , donc:
h(x)=1η(θ)=(log[θ1/θk],⋯,log[θk−1/θk],0)t(x)=(x1,⋯,xk)A(θ)=−log[θk]fθ(x)=exp[(log[θ1/θk],⋯,log[θk−1/θk],0)T(x1,⋯,xk)−(−log[θk])].
maintenant de manière suggestive , afin que nous puissions écrire . Le normalisateur de journal devient alors
En prenant la dérivée partielle par rapport à , nous trouvons
révélant que le gradient du normalisateur de log est en effet la fonction softmax:
η(θi)=log[θi/θk]=ηiθi=eηi∑kj=1eηj
A(η)=−log[eηk∑kj=1eηj]=−log[1∑kj=1eηj]=log[∑j=1keηj].
ηi∂∂ηiA(η)=eηi∑kj=1eηj,
∇A(η)=[eη1∑kj=1eηj,⋯,eηk∑kj=1eηj].