Cela ressemble plus à une question générale de PNL. Quelle est l'entrée appropriée pour former l'intégration d'un mot, à savoir Word2Vec? Est-ce que toutes les phrases appartenant à un article devraient être un document séparé dans un corpus? Ou chaque article doit-il être un document dans ledit corpus? Ceci est juste un exemple utilisant python et gensim.
Corpus divisé par phrase:
SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."],
["second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article."],
["second", "sentence", "of", "the", "second", "article."]]
Corpus divisé par article:
ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.",
"second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article.",
"second", "sentence", "of", "the", "second", "article."]]
Formation Word2Vec en Python:
from gensim.models import Word2Vec
wikiWord2Vec = Word2Vec(ArticleCorpus)
la source
En complément de la réponse de @ NBartley. À quiconque rencontre cette question. J'ai essayé d'utiliser l'article / la phrase comme entrée pour word2vec sur Spark2.2, résultat comme suit.
utiliser la phrase comme entrée:
utiliser l' article comme entrée:
la source
Pour le premier, gensim a la classe Word2Vec. Pour ce dernier, Doc2Vec.
http://rare-technologies.com/doc2vec-tutorial/
la source