LDA a deux hyperparamètres, leur réglage modifie les sujets induits.
Qu'est-ce que les hyperparamètres alpha et bêta contribuent à la LDA?
Comment le sujet change-t-il si l'un ou l'autre des hyperparamètres augmente ou diminue?
Pourquoi sont-ils des hyperparamètres et pas seulement des paramètres?
topic-model
lda
parameter
alvas
la source
la source
Réponses:
La distribution de Dirichlet est une distribution multivariée. On peut désigner les paramètres du Dirichlet comme un vecteur de taille K de la forme ~ , oùaest le vecteur de tailleKdes paramètres, et∑xi=1.1B(a)⋅∏ixai−1i a K ∑xi=1
Maintenant, le LDA utilise des constructions comme:
Les deux précédentes sont des distributions que vous ne voyez pas vraiment à partir des données, c'est pourquoi elles sont appelées latentes ou cachées.
Les paramètres de l'a prior sont appelés hyperparamètres . Ainsi, dans LDA, les distributions de sujet, sur les documents et sur les mots ont également des prieurs correspondants, qui sont généralement désignés par alpha et bêta, et parce que les paramètres des distributions antérieures sont appelés hyperparamètres.
De plus, veuillez noter que les valeurs des paramètres antérieurs produisent des pdfs lisses de la distribution car les valeurs des paramètres sont proches de 1. Donc, si vous avez une grande confiance que quelque chose est clairement distribué d'une manière que vous savez, avec un degré de confiance élevé, des valeurs loin de 1 en valeur absolue doivent être utilisées, si vous n'avez pas ce type de connaissances, des valeurs proches de 1 coderaient ce manque de connaissances. Il est facile de voir pourquoi 1 joue un tel rôle dans la distribution de Dirichlet à partir de la formule de la distribution elle-même.
J'espère que cela a aidé.
la source
En supposant des distributions symétriques de Dirichlet (pour plus de simplicité), une valeur alpha faible donne plus de poids à ce que chaque document ne soit composé que de quelques sujets dominants (alors qu'une valeur élevée renverra de nombreux sujets plus dominants). De même, une valeur bêta faible accorde plus de poids au fait que chaque sujet ne soit composé que de quelques mots dominants.
la source