Je cherche à concevoir un système qui compte tenu d'un paragraphe de texte pourra le catégoriser et identifier le contexte:
- Est formé aux paragraphes de texte générés par l'utilisateur (comme les commentaires / questions / réponses)
- Chaque élément de l'ensemble de formation sera étiqueté avec. Ainsi, par exemple ("catégorie 1",, "paragraphe de texte")
- Il y aura des centaines de catégories
Quelle serait la meilleure approche pour construire un tel système? J'ai examiné quelques options différentes et voici une liste de solutions possibles. Word2Vec / NN est-il la meilleure solution pour le moment?
- Réseau de tenseur neuronal récursif alimenté avec des données Word2Vec moyennes
- RNTN et le vecteur de paragraphe ( https://cs.stanford.edu/~quocle/ paragraph_vector.pdf )?
- TF-IDF utilisé dans un réseau de croyances profondes
- TF-IDF et régression logistique
- Sac de mots et classification Naive Bayes
Réponses:
1) L'entropie maximale (régression logistique) sur les vecteurs TFIDF est un bon point de départ pour de nombreuses tâches de classification PNL.
2) Word2vec vaut vraiment la peine d'être essayé et comparé au modèle 1. Je suggère d'utiliser la saveur Doc2Vec pour regarder des phrases / paragraphes.
Quoc Le et Tomas Mikolov. Représentations distribuées des peines et des documents. http://arxiv.org/pdf/1405.4053v2.pdf
Gensim (python) a un joli modèle Doc2vec.
la source