Devrais-je normaliser les vecteurs de mots de word2vec avant de les utiliser?

38

Après avoir formé les vecteurs de mots avec word2vec, vaut-il mieux les normaliser avant de les utiliser pour certaines applications en aval? C'est-à-dire quels sont les avantages / inconvénients de les normaliser?

Franck Dernoncourt
la source
dans une tâche de similarité, la normalisation a légèrement amélioré les performances de mon système.
Keramat

Réponses:

30

Lorsque les applications en aval se soucient uniquement du sens des vecteurs de mots (par exemple, elles ne font attention qu'à la similarité cosinus de deux mots), normalisez et oubliez la longueur.

Toutefois, si les applications en aval peuvent (ou doivent) prendre en compte des aspects plus sensibles, tels que la signification des mots ou la cohérence dans l’utilisation des mots (voir ci-dessous), la normalisation risque de ne pas être une si bonne idée.


De Levy et al., 2015 (et, en fait, la plupart de la littérature sur l'incorporation de mots):

Les vecteurs sont normalisés à la longueur unitaire avant d’être utilisés pour le calcul de similarité, ce qui rend la similitude en cosinus et l’équivalent en produit scalaire.

Également de Wilson et Schakel, 2015 :

La plupart des applications d’incorporation de mots n’explorent pas les vecteurs de mots eux-mêmes, mais leurs relations pour résoudre, par exemple, des tâches de similarité et de relation de mots. Pour ces tâches, il a été constaté que l’utilisation de vecteurs de mots normalisés améliorait les performances. La longueur du vecteur mot est donc généralement ignorée.

Normaliser équivaut à perdre la notion de longueur. C'est-à-dire qu'une fois les mots vecteurs normalisés, vous oubliez la longueur (norme, module) qu'ils avaient juste après la phase d'apprentissage.

Cependant, il est parfois utile de prendre en compte la longueur originale des mots vecteurs.

Schakel et Wilson, 2015 ont observé quelques faits intéressants concernant la longueur des vecteurs de mots:

Un mot régulièrement utilisé dans un contexte similaire sera représenté par un vecteur plus long qu'un mot de même fréquence utilisé dans des contextes différents.

Non seulement la direction, mais aussi la longueur des vecteurs de mots portent des informations importantes.

La longueur du vecteur mot fournit, en combinaison avec la fréquence des termes, une mesure utile de la signification des mots.

turdus-merula
la source
Pouvons-nous préciser "il a été constaté que l'utilisation de vecteurs de mots normalisés améliorait les performances"? La normalisation n'est-elle pas un calcul supplémentaire?
neurite
4
@ neurite, dans ce contexte, une meilleure performance se réfère à un meilleur score sur les tâches d'évaluation.
Turdus-Merula