À quoi contribuent les hyperparamètres alpha et bêta dans l'allocation de Dirichlet latent?

19

LDA a deux hyperparamètres, leur réglage modifie les sujets induits.

Qu'est-ce que les hyperparamètres alpha et bêta contribuent à la LDA?

Comment le sujet change-t-il si l'un ou l'autre des hyperparamètres augmente ou diminue?

Pourquoi sont-ils des hyperparamètres et pas seulement des paramètres?

topic-model lda parameter alvas
la source

voici une bonne réponse partielle: stats.stackexchange.com/a/37444/156252

Greenish

16

La distribution de Dirichlet est une distribution multivariée. On peut désigner les paramètres du Dirichlet comme un vecteur de taille K de la forme ~ , oùest le vecteur de tailledes paramètres, et. $\frac{1}{B(a)} \cdot \prod\limits_{i} x_i^{a_{i-1}}$ $a$ $K$ $\sum x_i = 1$

Maintenant, le LDA utilise des constructions comme:

un document peut avoir plusieurs sujets (en raison de cette multiplicité, nous avons besoin de la distribution Dirichlet); et il y a une distribution de Dirichlet qui modélise cette relation
les mots peuvent également appartenir à plusieurs sujets, lorsque vous les considérez en dehors d'un document; ici nous avons besoin d'un autre Dirichlet pour modéliser ce

Les deux précédentes sont des distributions que vous ne voyez pas vraiment à partir des données, c'est pourquoi elles sont appelées latentes ou cachées.

$x$ $\theta$

p (θ | x) = \frac{p (x | θ) p (θ | α)}{p (x | α)} ⟺ posterior probability = \frac{likelihood \times prior probability}{marginal likelihood}

$p(\theta|x) = \frac{p(x|\theta)p(\theta|\alpha)}{p(x|\alpha)} \iff \text{posterior probability} = \frac{\text{likelihood}\times \text{prior probability}}{\text{marginal likelihood}}$

α

$\alpha$

Les paramètres de l'a prior sont appelés hyperparamètres . Ainsi, dans LDA, les distributions de sujet, sur les documents et sur les mots ont également des prieurs correspondants, qui sont généralement désignés par alpha et bêta, et parce que les paramètres des distributions antérieures sont appelés hyperparamètres.

$\alpha_k$ $x$

$\alpha_k$

De plus, veuillez noter que les valeurs des paramètres antérieurs produisent des pdfs lisses de la distribution car les valeurs des paramètres sont proches de 1. Donc, si vous avez une grande confiance que quelque chose est clairement distribué d'une manière que vous savez, avec un degré de confiance élevé, des valeurs loin de 1 en valeur absolue doivent être utilisées, si vous n'avez pas ce type de connaissances, des valeurs proches de 1 coderaient ce manque de connaissances. Il est facile de voir pourquoi 1 joue un tel rôle dans la distribution de Dirichlet à partir de la formule de la distribution elle-même.

$\alpha_k$ $\alpha_k$

J'espère que cela a aidé.

rapaio
la source

Nous accueillons / espérons la même chose sur le support tex! : D

Rubens

11

En supposant des distributions symétriques de Dirichlet (pour plus de simplicité), une valeur alpha faible donne plus de poids à ce que chaque document ne soit composé que de quelques sujets dominants (alors qu'une valeur élevée renverra de nombreux sujets plus dominants). De même, une valeur bêta faible accorde plus de poids au fait que chaque sujet ne soit composé que de quelques mots dominants.

Alireza
la source

À quoi contribuent les hyperparamètres alpha et bêta dans l'allocation de Dirichlet latent?

Réponses: