Le softmax hiérarchique construit un arbre sur tout le vocabulaire et les nœuds feuilles représentant des mots rares hériteront inévitablement des représentations vectorielles de leurs ancêtres dans l'arbre, qui peuvent être affectées par d'autres mots fréquents dans le corpus. Cela bénéficiera à la formation supplémentaire pour les nouveaux corpus.
L'échantillonnage négatif est développé sur la base d'une estimation contrastée du bruit et échantillonne au hasard les mots qui ne sont pas dans le contexte pour distinguer les données observées du bruit aléatoire généré artificiellement.