Quelqu'un peut-il expliquer quelle est l'interprétation naturelle des hyperparamètres LDA? ALPHA
et BETA
sont des paramètres des distributions de Dirichlet pour les distributions de mots (par document) et (par sujet) de mots respectivement. Cependant, quelqu'un peut-il expliquer ce que signifie choisir des valeurs plus élevées de ces hyperparamètres par rapport à des valeurs plus petites? Est-ce que cela signifie mettre des croyances antérieures en termes de rareté des sujets dans les documents et d'exclusivité mutuelle des sujets en termes de mots?
Cette question concerne l'allocation latente de Dirichlet, mais le commentaire de BGReene immédiatement ci-dessous se réfère à une analyse discriminante linéaire, qui est également en abrégé LDA.
interpretation
prior
topic-models
hyperparameter
abhinavkulkarni
la source
la source
Réponses:
David Blei a une grande conférence présentant LDA aux étudiants d'une classe d'été: http://videolectures.net/mlss09uk_blei_tm/
Dans la première vidéo, il couvre en détail l'idée de base de la modélisation de sujets et comment les distributions Dirichlet entrent en jeu. La notation de plaque est expliquée comme si toutes les variables cachées sont observées pour montrer les dépendances. Fondamentalement, les sujets sont des distributions sur des mots et des distributions de documents sur des sujets.
Dans la deuxième vidéo, il montre l'effet de l'alpha avec quelques exemples de graphiques. Plus l'alpha est petit, plus la distribution est clairsemée. De plus, il présente quelques approches d'inférence.
la source
La réponse dépend de si vous supposez la distribution dirichlet symétrique ou asymétrique (ou, plus techniquement, si la mesure de base est uniforme). Sauf indication contraire, la plupart des implémentations de LDA supposent que la distribution est symétrique.
Pour la distribution symétrique, une valeur alpha élevée signifie que chaque document est susceptible de contenir un mélange de la plupart des sujets, et pas un seul sujet en particulier. Une valeur alpha faible impose moins de contraintes sur les documents et signifie qu'il est plus probable qu'un document puisse contenir un mélange de quelques-uns, voire d'un seul, des sujets. De même, une valeur bêta élevée signifie que chaque sujet est susceptible de contenir un mélange de la plupart des mots, et non un mot en particulier, tandis qu'une valeur faible signifie qu'un sujet peut contenir un mélange de seulement quelques mots.
Si, en revanche, la distribution est asymétrique, une valeur alpha élevée signifie qu'une distribution de sujet spécifique (en fonction de la mesure de base) est plus probable pour chaque document. De même, des valeurs bêta élevées signifient que chaque sujet est plus susceptible de contenir un mélange de mots spécifique défini par la mesure de base.
En pratique, une valeur alpha élevée conduira à des documents plus similaires en termes de sujets qu'ils contiennent. Une valeur bêta élevée conduira également à des sujets plus similaires en termes de mots qu'ils contiennent.
Donc, oui, les paramètres alpha spécifient les croyances antérieures sur la rareté / l'uniformité du sujet dans les documents. Je ne suis pas tout à fait sûr de ce que vous entendez par "exclusivité mutuelle des sujets en termes de mots".
Plus généralement, ce sont des paramètres de concentration pour la distribution de dirichlet utilisée dans le modèle LDA. Pour acquérir une compréhension intuitive de la façon dont cela fonctionne, cette présentation contient de belles illustrations, ainsi qu'une bonne explication de LDA en général.
la source