Sûr. Il s'agit essentiellement de l'observation que la distribution de Dirichlet est un conjugué préalable à la distribution multinomiale. Cela signifie qu'ils ont la même forme fonctionnelle. L'article le mentionne, mais je soulignerai simplement que cela découle du modèle d'échantillonnage multinomial. Donc, pour y aller ...
L'observation concerne le postérieur, introduisons donc quelques données, , qui sont des comptes de éléments distincts. Nous observons échantillons au total. Nous supposerons que est tiré d'une distribution inconnue (sur laquelle nous mettrons un avant sur le -simplex).xKN=∑Ki=1xixπDir(α)K
La probabilité postérieure de étant donnée et les données sontπαx
p(π|x,α)=p(x|π)p(π|α)
La vraisemblance, , est la distribution multinomiale. Maintenant, écrivons les pdf:p(x|π)
p(x|π)=N!x1!⋯xk!πx11⋯πxkk
et
p(π|α)=1B(α)∏i=1Kπα−1i
où . En multipliant, nous constatons que,B(α)=Γ(α)KΓ(Kα)
p(π|α,x)=p(x|π)p(π|α)∝∏i=1Kπxi+α−1i.
En d'autres termes, le postérieur est également Dirichlet. La question portait sur la moyenne postérieure. Puisque le postérieur est Dirichlet, nous pouvons appliquer la formule de la moyenne d'un Dirichlet pour constater que,
E[πi|α,x]=xi+αN+Kα.
J'espère que cela t'aides!
En guise de remarque, je voudrais également ajouter un autre point à la dérivation ci-dessus, qui ne concerne pas vraiment la question principale. Cependant, en parlant des a priori de Dirichlet sur la distribution multinomiale, j'ai pensé qu'il valait la peine de mentionner que ce serait la forme de la fonction de vraisemblance si nous prenions les probabilités comme variables de nuisance.
Comme il est correctement souligné par sydeulissie, le est proportionnel à . Maintenant, ici, je voudrais calculer .p(π|α,x) ∏Ki=1πxi+α−1i p(x|α)
En utilisant une identité intégrale pour les fonctions gamma, nous avons:
La dérivation ci-dessus de la probabilité de données catégoriques propose une manière plus robuste de traiter ces données pour les cas où la taille de l'échantillon n'est pas assez grande.N
la source