Je me demande comment étiqueter (étiqueter) des phrases / paragraphes / documents avec doc2vec dans gensim - d'un point de vue pratique.
Avez-vous besoin d'avoir chaque phrase / paragraphe / document avec sa propre étiquette unique (par exemple "Sent_123")? Cela semble utile si vous voulez dire "quels mots ou phrases sont les plus similaires à une seule phrase spécifique intitulée" Sent_123 ".
Pouvez-vous faire répéter les étiquettes en fonction du contenu? Par exemple, si chaque phrase / paragraphe / document concerne un certain article de produit (et qu'il existe plusieurs phrases / paragraphes / documents pour un article de produit donné), pouvez-vous étiqueter les phrases en fonction de l'article, puis calculer la similitude entre un mot ou un phrase et cette étiquette (ce qui, je suppose, serait comme une moyenne de toutes les phrases qui avaient à voir avec le produit)?
dm=0, dbow_words=1
.doc2vec
modèle tire son algorithme deword2vec
.Il
word2vec
n'y a pas besoin d'étiqueter les mots, car chaque mot a sa propre signification sémantique dans le vocabulaire. Mais dans le cas dedoc2vec
, il est nécessaire de spécifier le nombre de mots ou de phrases véhiculant une signification sémantique, afin que l'algorithme puisse l'identifier comme une entité unique. Pour cette raison, nous spécifionslabels
outags
à la phrase ou au paragraphe selon le niveau de signification sémantique véhiculée.Si nous spécifions une seule étiquette pour plusieurs phrases dans un paragraphe, cela signifie que toutes les phrases du paragraphe sont nécessaires pour transmettre le sens. D'un autre côté, si nous spécifions des étiquettes variables pour toutes les phrases d'un paragraphe, cela signifie que chacune véhicule une signification sémantique et qu'elles peuvent ou non avoir une similitude entre elles.
En termes simples, un
label
signifie le sens sémantique de quelque chose.la source
If we specify a single label to multiple sentences in a paragraph, it means that all the sentences in the paragraph are required to convey the meaning.
Je ne suis pas sûr de bien comprendre cela. D'après les algorithmes POV, est-ce que toutes les phrases avec la même balise sont nécessaires pour la définition sémantique ou toutes les phrases avec la même balise décrivent la même chose? Dans le premier cas, aucune phrase n'est autonome en soi, dans le second cas, une seule phrase est autosuffisante.