J'ai utilisé LDA sur un corpus de documents et trouvé quelques sujets. La sortie de mon code est deux matrices contenant des probabilités; l'une des probabilités doc-topic et l'autre probabilités word-topic. Mais je ne sais pas comment utiliser ces résultats pour prédire le sujet d'un nouveau document. J'utilise l'échantillonnage Gibbs. Est-ce que quelqu'un sait comment? Merci
text-mining
topic-models
Hossein
la source
la source
Réponses:
J'essaierais de «replier». Il s'agit de prendre un nouveau document, de l'ajouter au corpus, puis d'exécuter l'échantillonnage de Gibbs uniquement sur les mots de ce nouveau document , en conservant les affectations de sujet des anciens documents. Cela converge généralement rapidement (peut-être 5-10-20 itérations), et vous n'avez pas besoin d'échantillonner votre ancien corpus, donc il fonctionne également rapidement. À la fin, vous aurez l'attribution de rubrique pour chaque mot du nouveau document. Cela vous donnera la répartition des sujets dans ce document.
Dans votre échantillonneur Gibbs, vous avez probablement quelque chose de similaire au code suivant:
Le repliement est le même, sauf que vous commencez par les matrices existantes, que vous y ajoutez les jetons du nouveau document et que vous effectuez l'échantillonnage uniquement pour les nouveaux jetons. C'est à dire:
la source