1- Le nombre de fonctionnalités: En termes de modèle de réseau neuronal, il représente le nombre de neurones dans la couche de projection (cachée). Comme la couche de projection est construite sur une hypothèse de distribution, un vecteur numérique pour chaque mot signifie sa relation avec ses mots de contexte.
Ces caractéristiques sont apprises par le réseau neuronal car il s'agit d'une méthode non supervisée. Chaque vecteur a plusieurs ensembles de caractéristiques sémantiques. Par exemple, prenons l'exemple classique V(King) -V(man) + V(Women) ~ V(Queen)
et chaque mot représenté par un vecteur 300-d. V(King)
aura des caractéristiques sémantiques de Royauté, royaume, masculinité, humain dans le vecteur dans un certain ordre. V(man)
aura la masculinité, l'homme, travailler dans un certain ordre. Ainsi, une fois V(King)-V(Man)
terminé, la masculinité, les caractéristiques humaines seront annulées et, avec l'ajout de la V(Women)
féminité, les caractéristiques humaines seront ajoutées, ce qui donnera un vecteur très similaireV(Queen)
. La chose intéressante est que ces caractéristiques sont encodées dans le vecteur dans un certain ordre afin que les calculs numériques tels que l'addition, la soustraction fonctionnent parfaitement. Cela est dû à la nature de la méthode d'apprentissage non supervisée dans le réseau neuronal.
2- Il existe deux algorithmes d'approximation. Hierarchical softmax
et negative sampling
. Lorsque le paramètre d'échantillon est donné, il prend un échantillonnage négatif. En cas de softmax hiérarchique, pour chaque vecteur de mot, ses mots de contexte reçoivent des sorties positives et tous les autres mots du vocabulaire reçoivent des sorties négatives. Le problème de la complexité temporelle est résolu par un échantillonnage négatif. Comme dans l'échantillonnage négatif, plutôt que tout le vocabulaire, seule une partie échantillonnée du vocabulaire reçoit des sorties négatives et les vecteurs sont entraînés, ce qui est beaucoup plus rapide que l'ancienne méthode.
la source