Problème de classification de texte: Word2Vec / NN est-il la meilleure approche?

10

Je cherche à concevoir un système qui compte tenu d'un paragraphe de texte pourra le catégoriser et identifier le contexte:

  1. Est formé aux paragraphes de texte générés par l'utilisateur (comme les commentaires / questions / réponses)
  2. Chaque élément de l'ensemble de formation sera étiqueté avec. Ainsi, par exemple ("catégorie 1",, "paragraphe de texte")
  3. Il y aura des centaines de catégories

Quelle serait la meilleure approche pour construire un tel système? J'ai examiné quelques options différentes et voici une liste de solutions possibles. Word2Vec / NN est-il la meilleure solution pour le moment?

  1. Réseau de tenseur neuronal récursif alimenté avec des données Word2Vec moyennes
  2. RNTN et le vecteur de paragraphe ( https://cs.stanford.edu/~quocle/ paragraph_vector.pdf )?
  3. TF-IDF utilisé dans un réseau de croyances profondes
  4. TF-IDF et régression logistique
  5. Sac de mots et classification Naive Bayes
Shankar
la source
Pouvez-vous préciser quel type de catégories? Aura-t-il besoin de pouvoir gérer de nouvelles catégories et / ou des mots invisibles? Les exigences concernant les termes peu fréquents et les catégories invisibles aideront à la conception du système.
NBartley
Merci @NBartley. Les mots invisibles auront également une forte probabilité. Les parasites d'entrée seront du contenu généré par l'utilisateur, d'où la possibilité de nouveaux mots invisibles sera très élevé. Les catégories seraient définies, mais nous devrons élargir la liste des catégories au fil du temps. Merci
Shankar
Vous devriez également consulter sense2vec arxiv.org/abs/1511.06388 . En un mot, ce sont les incorporations de mots combinées avec le balisage de la partie de la parole. Il a été rapporté que les incorporations de mots étaient plus précises en désambiguïsant les homonymes. Il serait intéressant de voir si cela améliore également les performances dans les tâches de classification.
wacax

Réponses:

5

1) L'entropie maximale (régression logistique) sur les vecteurs TFIDF est un bon point de départ pour de nombreuses tâches de classification PNL.

2) Word2vec vaut vraiment la peine d'être essayé et comparé au modèle 1. Je suggère d'utiliser la saveur Doc2Vec pour regarder des phrases / paragraphes.

Quoc Le et Tomas Mikolov. Représentations distribuées des peines et des documents. http://arxiv.org/pdf/1405.4053v2.pdf

Gensim (python) a un joli modèle Doc2vec.

rushimg
la source
Merci @rushimg. Si les catégories sont étroitement liées, c'est-à-dire que le paragraphe de texte utilisé comme entrée a une grande quantité de mots communs, laquelle des deux approches serait la meilleure pour comprendre le contexte et faire la différence entre les deux?
Shankar
J'utiliserais le modèle Doc2Vec car il supprime l'hypothèse du sac de mots du modèle max-ent. Si tf-idf est utilisé comme caractéristiques dans le modèle max-ent, cela réduirait également l'impact des mots courants. Je pense que tester les deux méthodes et les peaufiner serait la meilleure solution.
rushimg