J'ai lu que la représentation distributionnelle est basée sur l'hypothèse distributionnelle que les mots apparaissant dans un contexte similaire ont généralement des significations similaires.
Word2Vec et Doc2Vec sont tous deux modélisés selon cette hypothèse. Mais, dans le document d'origine, même ils sont intitulés comme Distributed representation of words and phrases
et Distributed representation of sentences and documents
. Donc, ces algorithmes sont-ils basés sur une représentation distributionnelle ou une représentation distribuée.
Que diriez-vous d'autres modèles tels que LDA et LSA.
male
royal
female
royal
Turian, Joseph, Lev Ratinov et Yoshua Bengio. " Représentations de mots: une méthode simple et générale pour l'apprentissage semi-supervisé ." Actes de la 48e réunion annuelle de l'association pour la linguistique informatique. Association for Computational Linguistics, 2010. définir les représentations distributionnelles et les représentations distribuées comme suit:
FYI: Quelle est la différence entre les vecteurs de mots, les représentations de mots et les incorporations de vecteurs?
la source
Distributional
: Il a une matrice de taille WxC puis sa taille réduite à Wxd, où d est la taille du vecteur d'intégration. Il utilise des tailles de fenêtre pour déterminer le contexte.Distributed
: Vecteurs denses de faible dimension. Il préserve les caractéristiques latentes (propriétés sémantiques) dans ces dimensions.La réponse d'Andrey Kutuzov via google groups était satisfaisante
la source