Pourquoi skip-gram est-il meilleur pour les mots peu fréquents que CBOW?

Réponses:

14

Dans CBOW, les vecteurs des mots de contexte sont moyennés avant de prédire le mot central. Dans skip-gram, il n'y a pas de moyenne des vecteurs d'intégration. Il semble que le modèle puisse apprendre de meilleures représentations pour les mots rares lorsque leurs vecteurs ne sont pas moyennés avec les autres mots de contexte en train de faire les prédictions.

Aaron
la source
13

Voici ma compréhension simpliste et assez naïve de la différence:

Comme nous le savons, CBOW apprend à prédire le mot en fonction du contexte. Ou maximisez la probabilité du mot cible en regardant le contexte. Et cela se trouve être un problème pour les mots rares. Par exemple, étant donné le contexte, le yesterday was really [...] daymodèle CBOW vous dira que le mot est probablement beautifulou nice. Des mots comme delightfulattireront beaucoup moins l'attention sur le modèle, car il est conçu pour prédire le mot le plus probable. Les mots rares seront lissés sur de nombreux exemples avec des mots plus fréquents.

D'un autre côté, le skip-gram est conçu pour prédire le contexte. Étant donné le mot, delightfulil doit le comprendre et nous dire qu'il y a une probabilité énorme, le contexte est yesterday was really [...] dayou tout autre contexte pertinent. Avec skip-gram, le mot delightfuln'essaiera pas de rivaliser avec le mot, beautifulmais à la place, les delightful+contextpaires seront traitées comme de nouvelles observations. Pour cette raison, skip-gram aura besoin de plus de données pour apprendre à comprendre même les mots rares.

Serhiy
la source
0

Je viens de tomber sur un article qui montre le contraire: que CBOW est meilleur pour les mots peu fréquents que skip-gram https://arxiv.org/abs/1609.08293 . Je me demande quelles sont les sources de la réclamation déclarée sur https://code.google.com/p/word2vec/ .

xsway
la source
Je crois que Mikolov a lui-même écrit cette boîte à outils. Fait intéressant, dans son article: papers.nips.cc/paper/…, il déclare: «Nous montrons que le sous-échantillonnage des mots fréquents pendant la formation entraîne une accélération significative (environ 2x - 10x) et améliore la précision des représentations des mots moins fréquents. " donc son skip-gram avec l'extension de sous-échantillonnage.
Kevin