Je suis confus sur la façon de calculer la perplexité d'un échantillon d'exclusion lors de l'allocation de Dirichlet latente (LDA). Les articles sur le sujet passent dessus, me faisant penser que je manque quelque chose d'évident ...
La perplexité est considérée comme une bonne mesure de la performance de LDA. L'idée est que vous gardiez un échantillon d'exclusion, entraînez votre LDA sur le reste des données, puis calculez la perplexité de l'exclusion.
La perplexité pourrait être donnée par la formule:
(Tiré de la récupération d'images sur des bases de données d' images à grande échelle, Horster et al .)
Ici, est le nombre de documents (dans l'échantillon de test, probablement), représente les mots du document , le nombre de mots du document . d N d d
Il n'est pas clair pour moi comment calculer raisonnablement , car nous n'avons pas de mélanges de sujets pour les documents en attente. Idéalement, nous intégrerions sur le Dirichlet avant pour tous les mélanges de sujets possibles et utiliserions les multinomiaux de sujets que nous avons appris. Le calcul de cette intégrale ne semble cependant pas une tâche facile.
Alternativement, nous pourrions essayer d'apprendre un mélange de sujets optimal pour chaque document présenté (compte tenu de nos sujets appris) et l'utiliser pour calculer la perplexité. Ce serait faisable, mais ce n'est pas aussi trivial que des articles tels que Horter et al et Blei et al semblent le suggérer, et il n'est pas immédiatement clair pour moi que le résultat sera équivalent au cas idéal ci-dessus.
la source
Nous savons que les paramètres de la LDA sont estimés par l'inférence variationnelle. Donc
la source