Pourquoi la distribution de Dirichlet est-elle prioritaire pour la distribution multinomiale?

36

Dans l'algorithme de modèle de sujet LDA, j'ai vu cette hypothèse. Mais je ne sais pas pourquoi choisir la distribution de Dirichlet? Je ne sais pas si nous pouvons utiliser la distribution uniforme sur Multinomial par paire?

ColinBinWang
la source
5
La distribution uniforme est un cas particulier de la distribution de dirichlet.
Stumpy Joe Pete

Réponses:

60

La distribution de Dirichlet est un préalable conjugué pour la distribution multinomiale. Cela signifie que si la distribution antérieure des paramètres multinomiaux est de Dirichlet, la distribution postérieure est également une distribution de Dirichlet (avec des paramètres différents de ceux du précédent). L'avantage de ceci est que (a) la distribution postérieure est facile à calculer et (b) il est en quelque sorte possible de quantifier à quel point nos croyances ont changé après la collecte des données.

On peut certainement se demander si ce sont de bonnes raisons de choisir un a priori particulier, car ces critères ne sont pas liés à des croyances antérieures réelles ... Néanmoins, les a priori conjugués sont populaires, car ils sont souvent assez souples et faciles à utiliser pour les raisons indiquées ci-dessus. .

Pour le cas particulier de la distribution multinomiale, prenons le vecteur de paramètres multinomiaux (c'est-à-dire les probabilités pour les différentes catégories). Si avant de collecter les données, les observations données dans les différentes catégories, (p1,,pk)

(p1,,pk)Dirichlet(α1,,αk)
(x1,,xk)
(p1,,pk)|(x1,,xk)Dirichlet(α1+x1,,αk+xk).

La distribution uniforme est en fait un cas particulier de la distribution de Dirichlet, correspondant au cas . Ainsi est le précédent Jeffreys le moins informatif , pour lequel . Le fait que la classe de Dirichlet inclue ces a priori naturels "non informatifs" est une autre raison de l’utiliser.α1=α2==αk=1α1==αk=1/2

MånsT
la source
Nous avons donc choisi la distribution de Dirichlet pour ces avantages.
ColinBinWang
1
+1: Vous voudrez peut-être explicitement dire que la probabilité est nécessairement de Dirichlet, ce qui explique pourquoi la distribution a posteriori est facile à calculer.
Neil G
18

De plus, plutôt que de contredire la réponse de Måns T , je souligne simplement qu’il n’existe pas de «prieur» dans la modélisation bayésienne! La distribution de Dirichlet est un choix pratique en raison de (a) la conjugaison, (b) l'informatique et (c) la connexion à des statistiques non paramétriques (puisqu'il s'agit de la version discrétisée du processus de Dirichlet).

Cependant, (i) quel que soit le poids que vous avez préalablement attribué au multinomial est une réponse légitime au niveau subjectif de Bayes et (ii) si des informations préalables sont disponibles, il n’ya aucune raison que cela simplifie la distribution de Dirichlet. Notez également que les mélanges et les convolutions des distributions de Dirichlet peuvent être utilisés comme prieur.

Xi'an
la source