Eh bien, les noms sont assez simples et devraient vous donner une idée claire des représentations vectorielles.
L'algorithme Word2Vec construit une représentation sémantique distribuée des mots. Il existe deux approches principales de la formation, le sac distribué de mots et le modèle de saut de gramme. L'un implique de prédire les mots de contexte en utilisant un mot central, tandis que l'autre implique de prédire le mot en utilisant les mots de contexte. Vous pouvez en lire plus en détail dans l' article de Mikolov .
La même idée peut être étendue aux phrases et aux documents complets où, au lieu d'apprendre des représentations fonctionnelles pour des mots, vous l'apprenez pour des phrases ou des documents. Cependant, pour avoir une idée générale d'un PhraseToVec, pensez-y comme une moyenne mathématique des représentations vectorielles des mots de tous les mots de la phrase. Vous pouvez obtenir une très bonne approximation simplement en faisant la moyenne et sans entraîner aucun PhraseToVec mais bien sûr, il a ses limites.
Doc2Vec étend l'idée de SentenceToVec ou plutôt Word2Vec car les phrases peuvent également être considérées comme des documents. L'idée de la formation reste similaire. Vous pouvez lire l' article Doc2Vec de Mikolov pour plus de détails.
En ce qui concerne les applications, cela dépend de la tâche. Un Word2Vec capture efficacement les relations sémantiques entre les mots, il peut donc être utilisé pour calculer des similitudes de mots ou alimenté en tant que fonctionnalités pour diverses tâches de PNL telles que l'analyse des sentiments, etc. pas seulement des mots. Par exemple, si vous essayez de déterminer si deux questions de débordement de pile sont des doublons l'une de l'autre.
Une simple recherche Google vous mènera à un certain nombre d'applications de ces algorithmes.