J'essaie de me frayer un chemin à travers le premier ensemble de problèmes du matériel de cours en ligne stanford cs224d et j'ai des problèmes avec le problème 3A: lorsque j'utilise le modèle skip gram word2vec avec la fonction de prédiction softmax et la fonction de perte d'entropie croisée, nous veulent calculer les gradients par rapport aux vecteurs de mots prédits. Donc, étant donné la fonction softmax:
et fonction d'entropie croisée:
nous devons calculer
Mes étapes sont les suivantes:
maintenant donné est un vecteur chaud et i est la bonne classe:
Est-ce correct ou pourrait-il être simplifié davantage? Je veux essayer de m'assurer que je suis sur la bonne voie car les solutions de problèmes ne sont pas publiées en ligne. De plus, obtenir les affectations écrites correctes est important pour pouvoir effectuer correctement les affectations de programmation.
Réponses:
∂CE
la source