Je travaille sur un algorithme de formation des données pour Word2vec. Puisque nous avons besoin que les mots restent aussi originaux, nous ne les rendons pas en minuscules lors de la phase de prétraitement. Il y a donc des mots avec des variations différentes (par exemple "Terre" et "terre").
La seule façon dont je peux penser est de prendre la moyenne des vecteurs pour "Terre" et "terre" pour créer un seul vecteur pour représenter le mot. (Étant donné que les dimensions du vecteur d'entité sont similaires)
Est-ce une méthode "correcte"? Si ce n'est pas le cas, quelle pourrait être une bonne façon de gérer ce problème?
Remarque: Réduire tous les mots du prétraitement n'est pas une option pour l'instant.
Modifier: les informations indiquant si les cotes des entités sont vraiment linéaires seraient également utiles.
Edit 2: Combiner les deux réponses de patapouf_ai
et a yazhi
donné les meilleurs résultats. Comment sont-ils combinés? La moyenne pondérée a amélioré les résultats, mais le fait de mettre les fréquences des mots à travers une fonction sigmoïde mise à l'échelle a donné les meilleurs résultats, car l'utilisation des fréquences des mots de manière linéaire leur donne plus d'importance qu'elles n'en ont.
Les mots "Terre" et "terre" peuvent avoir la même signification, mais selon l'algorithme word2vec, il dérive les informations sémantiques de la position des mots.
Ainsi généralement, "Terre" apparaîtra le plus souvent au début de la phrase en tant que sujet et "Terre" apparaîtra principalement sous la forme d'objet à la fin. Ainsi, les mots adjacents les plus proches peuvent différer, mais dans l'ensemble, les deux phrases peuvent contenir des mots tels que "pollution, climat, eau, pays".
En conclusion, je suppose qu'avec une plus grande taille de fenêtre, il semble conserver les mêmes informations sémantiques avec quelques petits changements où la "Terre" aura des informations sur le sujet et la "terre" aura des informations sur les objets. Ainsi, la moyenne n'affectera pas beaucoup et semble être un cas possible. Mais avec une taille de fenêtre inférieure, il y a une forte probabilité qu'elle puisse avoir des significations différentes.
la source