De combien de données d'entraînement Word2vec a-t-il besoin?

10

Je voudrais comparer la différence entre le même mot mentionné dans différentes sources. C'est-à-dire, comment les auteurs diffèrent dans leur utilisation de mots mal définis, tels que «démocratie».

Un bref plan a été

  1. Prenez les livres mentionnant le terme "démocratie" en texte brut
  2. Dans chaque livre, remplacez democracypardemocracy_%AuthorName%
  3. Former un word2vecmodèle sur ces livres
  4. Calculer la distance entre democracy_AuthorA, democracy_AuthorBet d'autres mentions rebaptisées de "démocratie"

Ainsi, la «démocratie» de chaque auteur a son propre vecteur, qui est utilisé à des fins de comparaison.

Mais il semble que cela word2vecnécessite beaucoup plus que plusieurs livres (chaque mot réétiqueté n'apparaît que dans un sous-ensemble de livres) pour former des vecteurs fiables. La page officielle recommande des ensembles de données comprenant des milliards de mots.

Je voulais juste demander quelle devrait être la taille du sous-ensemble des livres d'un auteur pour faire une telle inférence avec word2vecou des outils alternatifs, si disponibles?

Anton Tarasenko
la source
1
Les livres que vous utilisez uniquement sur le thème de la démocratie, sinon, votre métrique de distance pourrait-elle ne pas être submergée par de plus grandes différences entre les contenus des livres? C'est un effet secondaire de votre problème étant dans un espace dimensionnel très élevé et d'être touché par la main de la malédiction de la dimensionnalité. Il serait peut-être utile de ne prendre qu'une petite région de texte autour du mot d'intérêt, mais c'est toujours un problème de dimension significative.
image_doctor
1
Oui, c'est l'essence même de cela. ici va avec une métaphore probablement mal pensée. Imaginez des chapitres de livres représentés par des couleurs. Et un livre dans son ensemble représenté comme le mélange de toutes les couleurs des chapitres. Un livre sur la démocratie en Europe occidentale se retrouverait probablement avec une teinte rougeâtre globale comme la somme de ses chapitres. Si nous représentons le tourisme en bleu, un livre sur le tourisme à Cuba, avec un seul chapitre sur la démocratie et son influence sur le développement économique, aurait une forte teinte bleue. Les deux livres semblent donc très différents lorsqu'ils sont vus dans leur ensemble.
image_doctor
1
C'est la façon la plus accessible de dire ce qu'un scientifique des données exprimerait comme les vecteurs des deux livres seront très éloignés l'un de l'autre dans l'espace des fonctionnalités et apparaîtront donc très différents. Il est vraiment difficile de quantifier à l'avance le nombre d'exemples dont vous aurez besoin sans jouer avec les données, mais le langage est subtil et en couches, vous en voudrez probablement autant que vous pourrez ... et peut-être plus. En fin de compte, vous ne saurez pas avant d'essayer. Ce n'est pas une réponse concrète, mais à moins que quelqu'un n'ait directement fait l'expérience de faire une chose similaire, c'est probablement le meilleur que vous obtiendrez.
image_doctor
1
word2vec n'utilise déjà que "une petite zone de texte autour du mot d'intérêt". Le windowparamètre définit combien de mots dans le contexte sont utilisés pour former le modèle pour votre mot w
jamesmf
1
@politicalscientist Je n'avais pas terminé ce projet.
Anton Tarasenko

Réponses:

1

Il semble que doc2vec (ou des vecteurs de paragraphe / contexte) pourrait convenir à ce problème.

En résumé, en plus des vecteurs de mots, vous ajoutez un "vecteur de contexte" (dans votre cas, une intégration pour l'auteur) qui est utilisé pour prédire le centre ou les mots de contexte.

Cela signifie que vous bénéficierez de toutes les données sur la "démocratie" mais extrairez également une intégration pour cet auteur, qui, combinée, devrait vous permettre d'analyser le biais de chaque auteur avec des données limitées sur chaque auteur.

Vous pouvez utiliser l'implémentation de gensim . Le doc comprend des liens vers les articles sources.

halfelins
la source