Je voudrais comparer la différence entre le même mot mentionné dans différentes sources. C'est-à-dire, comment les auteurs diffèrent dans leur utilisation de mots mal définis, tels que «démocratie».
Un bref plan a été
- Prenez les livres mentionnant le terme "démocratie" en texte brut
- Dans chaque livre, remplacez
democracy
pardemocracy_%AuthorName%
- Former un
word2vec
modèle sur ces livres - Calculer la distance entre
democracy_AuthorA
,democracy_AuthorB
et d'autres mentions rebaptisées de "démocratie"
Ainsi, la «démocratie» de chaque auteur a son propre vecteur, qui est utilisé à des fins de comparaison.
Mais il semble que cela word2vec
nécessite beaucoup plus que plusieurs livres (chaque mot réétiqueté n'apparaît que dans un sous-ensemble de livres) pour former des vecteurs fiables. La page officielle recommande des ensembles de données comprenant des milliards de mots.
Je voulais juste demander quelle devrait être la taille du sous-ensemble des livres d'un auteur pour faire une telle inférence avec word2vec
ou des outils alternatifs, si disponibles?
la source
window
paramètre définit combien de mots dans le contexte sont utilisés pour former le modèle pour votre mot wRéponses:
Il semble que doc2vec (ou des vecteurs de paragraphe / contexte) pourrait convenir à ce problème.
En résumé, en plus des vecteurs de mots, vous ajoutez un "vecteur de contexte" (dans votre cas, une intégration pour l'auteur) qui est utilisé pour prédire le centre ou les mots de contexte.
Cela signifie que vous bénéficierez de toutes les données sur la "démocratie" mais extrairez également une intégration pour cet auteur, qui, combinée, devrait vous permettre d'analyser le biais de chaque auteur avec des données limitées sur chaque auteur.
Vous pouvez utiliser l'implémentation de gensim . Le doc comprend des liens vers les articles sources.
la source