Inspiré par cette question , je me demande si des travaux ont été effectués sur des modèles de sujet pour de grandes collections de textes extrêmement courts. Mon intuition est que Twitter devrait être une inspiration naturelle pour de tels modèles. Cependant, à partir d'une expérimentation limitée, il semble que les modèles de sujet standard (LDA, etc.) fonctionnent assez mal sur ce type de données.
Quelqu'un connaît-il du travail qui a été fait dans ce domaine? Cet article parle de l'application de LDA à Twitter, mais je suis vraiment intéressé de savoir s'il existe d'autres algorithmes qui fonctionnent mieux dans le contexte des documents courts.
references
text-mining
topic-models
natural-language
Martin O'Leary
la source
la source
Réponses:
Il s'agit d'une réponse tardive, mais elle peut être utile pour d'autres personnes à la recherche de recherches et d'outils connexes pour ce problème:
Weiwei Guo de Columbia a implémenté du code pour la modélisation de sujets de texte court. Il a décrit la mise en œuvre dans le document "Modélisation des phrases dans l'espace latent" ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ) et le code est disponible ici: http: // www .cs.columbia.edu / ~ weiwei / code.html
Bien qu'il ne s'agisse pas de modélisation de sujet, si vous avez une tâche de classification impliquant de courts morceaux de texte, vous pouvez utiliser LibShortText. De la description de leur site Web
"LibShortText est un outil open source pour la classification et l'analyse de texte court. Il peut gérer la classification, par exemple, des titres, des questions, des phrases et des messages courts ..."
http://www.csie.ntu.edu.tw/~cjlin/libshorttext/
la source
Bien que je ne sois pas très familier avec son travail, je sais que Jacob Eisenstein a fait du travail dans l'analyse de texte et les modèles graphiques dans les données Twitter. En particulier, cet article décrit une application de la modélisation de sujets dans les données Twitter et les microblogs.
Edit: en fait, après avoir lu un peu plus l'article, ils déclarent:
Alors peut-être que ce document même ne peut pas être d'une grande aide, peut-être que d'autres publications d'Eisenstein peuvent vous conduire dans la bonne direction.
la source
Un article récent intitulé " un modèle de sujet biterm pour le texte court " (WWW13) a fait quelques progrès sur ce sujet, et voici son code
la source