Je suis totalement nouveau sur word2vec, alors veuillez le porter avec moi. J'ai un ensemble de fichiers texte contenant chacun un ensemble de tweets, entre 1000-3000. J'ai choisi un mot clé commun ("kw1") et souhaite trouver des termes sémantiquement pertinents pour "kw1" en utilisant word2vec. Par exemple, si le mot-clé est "pomme", je m'attendrais à voir des termes connexes tels que "ipad" "os" "mac" ... basés sur le fichier d'entrée. Ainsi, cet ensemble de termes associés pour "kw1" serait différent pour chaque fichier d'entrée car word2vec serait formé sur des fichiers individuels (par exemple, 5 fichiers d'entrée, exécutez word2vec 5 fois sur chaque fichier).
Mon objectif est de trouver des ensembles de termes associés pour chaque fichier d'entrée en fonction du mot-clé commun ("kw1"), qui serait utilisé à d'autres fins.
Mes questions / doutes sont:
- Est-il judicieux d'utiliser word2vec pour une tâche comme celle-ci? est-il techniquement correct d'utiliser compte tenu de la petite taille d'un fichier d'entrée?
J'ai téléchargé le code à partir de code.google.com: https://code.google.com/p/word2vec/ et je viens de lui donner un essai sec comme suit:
time ./word2vec -train $file -output vectors.bin -cbow 1 -size 200 -window 10 -negative 25 -hs 1 -sample 1e-3 -threads 12 -binary 1 -iter 50
./distance vectors.bin
D'après mes résultats, j'ai vu que j'obtiens de nombreux termes bruyants (mots vides) lorsque j'utilise l'outil 'distance' pour obtenir des termes liés à "kw1". J'ai donc supprimé les mots vides et autres termes bruyants tels que les mentions d'utilisateurs. Mais je n'ai vu nulle part que word2vec nécessite des données d'entrée nettoyées ...?
Comment choisissez-vous les bons paramètres? Je vois que les résultats (en exécutant l'outil de distance) varient considérablement lorsque je change des paramètres tels que «-window», «-iter». Quelle technique dois-je utiliser pour trouver les valeurs correctes pour les paramètres. (un essai manuel et une erreur ne sont pas possibles pour moi car je vais augmenter l'échelle de données).
la source