LDA peut-il être utilisé pour détecter le sujet d'un document UNIQUE?
Oui, dans sa représentation particulière du «sujet», et compte tenu d'un corpus de formation de documents (généralement liés).
LDA représente des sujets comme des distributions sur des mots et des documents comme des distributions sur des sujets. Autrement dit, l'un des objectifs mêmes de la LDA est d'arriver à une représentation probabiliste de chaque document comme un ensemble de sujets. Par exemple, l'implémentation LDA dans gensim
peut renvoyer cette représentation pour tout document donné.
Mais cela dépend des autres documents du corpus: tout document donné aura une représentation différente s'il est analysé dans le cadre d'un corpus différent.
Ce n'est généralement pas considéré comme une lacune: la plupart des applications de LDA se concentrent sur des documents connexes. Le document introduisant LDA l'applique à deux corpus, l'un des articles Associated Press et l'autre des résumés d'articles scientifiques. Le billet de blog bien accessible d'Edwin Chen applique la LDA à une tranche de courriels du temps de Sarah Palin en tant que gouverneur de l'Alaska.
Si votre application exige la séparation des documents en classes connues s'excluant mutuellement, les rubriques dérivées de LDA peuvent être utilisées comme fonctionnalités pour la classification. En effet, le document initial fait exactement cela avec le corpus AP, avec de bons résultats.
De même, la démonstration de Chen ne trie pas les documents en classes exclusives, mais ses documents concentrent principalement leur probabilité sur des sujets LDA uniques. Comme David Blei l'explique dans cette conférence vidéo , les prieurs Dirichlet peuvent être choisis pour favoriser la rareté. Plus simplement, "un document est pénalisé pour l'utilisation de nombreux sujets", comme le disent ses diapositives. Cela semble que la LDA la plus proche puisse accéder à un seul sujet non supervisé, mais ne garantit certainement pas que chaque document sera représenté comme tel.