Nombre d'époques dans l'implémentation de Gensim Word2Vec

14

Il y a un iterparamètre dans l' gensimimplémentation de Word2Vec

classe gensim.models.word2vec.Word2Vec (phrases = None, size = 100, alpha = 0.025, window = 5, min_count = 5, max_vocab_size = None, sample = 0, seed = 1, workers = 1, min_alpha = 0.0001, sg = 1, hs = 1, négatif = 0, cbow_mean = 0, hashfxn =, iter = 1 , null_word = 0, trim_rule = None, sorted_vocab = 1)

qui précise le nombre d'époques, c'est-à-dire:

iter = nombre d'itérations (époques) sur le corpus.

Est-ce que quelqu'un sait si cela aide à améliorer le modèle par rapport au corpus?

Y a-t-il une raison pour laquelle le iterest défini sur 1 par défaut? N'y a-t-il pas beaucoup d'effet à augmenter le non. d'époques?

Existe-t-il une évaluation scientifique / empirique de la manière de fixer le non. d'époques?

Contrairement à la tâche de classification / régression, la méthode de recherche de grille ne fonctionnerait pas vraiment puisque les vecteurs sont générés de manière non supervisée et la fonction objectif est simplement par softmax hiérarchique ou par échantillonnage négatif.

Existe-t-il un mécanisme d'arrêt précoce pour couper court au non. des époques une fois que les vecteurs convergent? Et l'objectif hiérarchique softmax ou négatif peut-il converger?

alvas
la source

Réponses:

5

L'augmentation du nombre d'époques profite généralement à la qualité des représentations de mots. Dans des expériences que j'ai effectuées où le but était d'utiliser le mot plongements comme caractéristiques pour la classification de texte en fixant les époques à 15 au lieu de 5, a augmenté la performance.

geompalik
la source
2

J'ai regardé ici et j'ai constaté que la valeur par défaut était passée de 1 à 5. Apparemment, les auteurs pensent que plus d'époques amélioreront les résultats .

Je ne peux pas encore dire par expérience.

HM Prins
la source
2

J'ai formé mon modèle w2v sur google news 300 pour [2, 10, 100] époques et le meilleur était sur 10 époques. Après toute cette attente, j'ai été choqué que 100 époques soient mauvaises.

epoch   wall                    
------ ------                    
2       56 s                    
10      4m 44s (284s)           
100     47m 27s (2847 s)    
MasterOne Piece
la source
1

L'augmentation du nombre d'itères (nombre d'époques) augmente considérablement le temps d'entraînement. Word2Vec ne donne des résultats de qualité que si vous alimentez une grande quantité de documents, il n'est donc pas raisonnable de boucler même deux fois dessus, même si cela rend les incorporations de mots résultantes plus précises.

Metin Say
la source