J'ai été impressionné par les résultats du document ICML 2014 " Représentations distribuées des peines et des documents " de Le et Mikolov. La technique qu'ils décrivent, appelée «vecteurs de paragraphe», apprend des représentations non supervisées de paragraphes / documents arbitrairement longs, basées sur une extension du modèle word2vec. L'article présente des performances de pointe sur l'analyse des sentiments à l'aide de cette technique.
J'espérais évaluer cette technique sur d'autres problèmes de classification de texte, comme alternative à la représentation traditionnelle par sac de mots. Cependant, je suis tombé sur un article du deuxième auteur dans un fil du groupe Google word2vec qui m'a donné une pause:
Je me suis essayé à reproduire les résultats de Quoc pendant l'été; J'ai pu obtenir des taux d'erreur sur l'ensemble de données IMDB à environ 9,4% - 10% (selon la qualité de la normalisation du texte). Cependant, je n'ai pas pu me rapprocher de ce que Quoc a rapporté dans le journal (erreur de 7,4%, c'est une énorme différence) ... Bien sûr, nous avons également interrogé Quoc sur le code; il a promis de le publier mais jusqu'à présent, rien ne s'est produit. ... Je commence à penser que les résultats de Quoc ne sont en fait pas reproductibles.
Quelqu'un a-t-il réussi à reproduire ces résultats?
la source
Réponses:
La note de bas de page sur http://arxiv.org/abs/1412.5335 (l'un des auteurs est Tomas Mikolov) dit
la source