Je passe en revue les problèmes liés aux problèmes d'affectation écrits de la classe d'apprentissage profond de Stanford NLP http://cs224d.stanford.edu/assignment1/assignment1_soln
J'essaie de comprendre la réponse pour 3a où ils recherchent la dérivée du vecteur pour le mot central.
Supposons que l'on vous donne un vecteur de mot prédit correspondant au mot central c pour skipgram, et la prédiction de mot est faite avec la fonction softmax trouvée dans les modèles word2vec.
Où w désigne le w-ème mot et (w = 1,..., W) sont les vecteurs de mots «de sortie» pour tous les mots du vocabulaire. Supposons que le coût d'entropie croisée est appliqué à cette prédiction et que le mot o est le mot attendu.
Où est la matrice de tous les vecteurs de sortie, et soit le vecteur de colonne de la prédiction softmax des mots, et y le label un-chaud qui est également un vecteur de colonne.
Où l'entropie croisée est
Ainsi, la réponse pour le gradient du vecteur central est
Quelqu'un pourrait-il me montrer les étapes pour y parvenir? J'ai utilisé cette question comme dérivé de référence de la perte d'entropie croisée dans word2vec mais je veux spécifiquement connaître l'représentation.
la source