Après avoir formé les vecteurs de mots avec word2vec, vaut-il mieux les normaliser avant de les utiliser pour certaines applications en aval? C'est-à-dire quels sont les avantages / inconvénients de les normaliser?
natural-language
word2vec
word-embeddings
Franck Dernoncourt
la source
la source
Réponses:
Lorsque les applications en aval se soucient uniquement du sens des vecteurs de mots (par exemple, elles ne font attention qu'à la similarité cosinus de deux mots), normalisez et oubliez la longueur.
Toutefois, si les applications en aval peuvent (ou doivent) prendre en compte des aspects plus sensibles, tels que la signification des mots ou la cohérence dans l’utilisation des mots (voir ci-dessous), la normalisation risque de ne pas être une si bonne idée.
De Levy et al., 2015 (et, en fait, la plupart de la littérature sur l'incorporation de mots):
Également de Wilson et Schakel, 2015 :
Normaliser équivaut à perdre la notion de longueur. C'est-à-dire qu'une fois les mots vecteurs normalisés, vous oubliez la longueur (norme, module) qu'ils avaient juste après la phase d'apprentissage.
Cependant, il est parfois utile de prendre en compte la longueur originale des mots vecteurs.
Schakel et Wilson, 2015 ont observé quelques faits intéressants concernant la longueur des vecteurs de mots:
la source