Word2Vec contre Sentence2Vec contre Doc2Vec

18

J'ai récemment rencontré les termes Word2Vec , Sentence2Vec et Doc2Vec et un peu confus car je suis nouveau dans la sémantique vectorielle. Quelqu'un peut-il expliquer les différences entre ces méthodes en termes simples? Quelles sont les tâches les plus adaptées à chaque méthode?

Forgeron
la source

Réponses:

22

Eh bien, les noms sont assez simples et devraient vous donner une idée claire des représentations vectorielles.

L'algorithme Word2Vec construit une représentation sémantique distribuée des mots. Il existe deux approches principales de la formation, le sac distribué de mots et le modèle de saut de gramme. L'un implique de prédire les mots de contexte en utilisant un mot central, tandis que l'autre implique de prédire le mot en utilisant les mots de contexte. Vous pouvez en lire plus en détail dans l' article de Mikolov .

La même idée peut être étendue aux phrases et aux documents complets où, au lieu d'apprendre des représentations fonctionnelles pour des mots, vous l'apprenez pour des phrases ou des documents. Cependant, pour avoir une idée générale d'un PhraseToVec, pensez-y comme une moyenne mathématique des représentations vectorielles des mots de tous les mots de la phrase. Vous pouvez obtenir une très bonne approximation simplement en faisant la moyenne et sans entraîner aucun PhraseToVec mais bien sûr, il a ses limites.

Doc2Vec étend l'idée de SentenceToVec ou plutôt Word2Vec car les phrases peuvent également être considérées comme des documents. L'idée de la formation reste similaire. Vous pouvez lire l' article Doc2Vec de Mikolov pour plus de détails.

En ce qui concerne les applications, cela dépend de la tâche. Un Word2Vec capture efficacement les relations sémantiques entre les mots, il peut donc être utilisé pour calculer des similitudes de mots ou alimenté en tant que fonctionnalités pour diverses tâches de PNL telles que l'analyse des sentiments, etc. pas seulement des mots. Par exemple, si vous essayez de déterminer si deux questions de débordement de pile sont des doublons l'une de l'autre.

Une simple recherche Google vous mènera à un certain nombre d'applications de ces algorithmes.

Himanshu Rai
la source
Quelle est alors la différence entre la moyenne des vecteurs de mots et l'utilisation de doc2vec? Doc2vec tient-il compte de l'environnement d'un mot dans la phrase lors de la construction du vecteur (contrairement au mot2vec)?
John Strood
1
Doc2Vec apprend un vecteur initialisé au hasard pour le document avec les mots (le document peut être une phrase). La moyenne manuelle des vecteurs de mots ne fonctionne pas à la même capacité car elle ne parvient pas à apprendre de l'ensemble du document. Récemment, les vecteurs Paragram ont été extrêmement utilisés en travaillant avec la similitude des documents, etc.
Himanshu Rai