Comment fonctionne le terme de momentum pour l'algorithme de rétropropagation?

9

Lors de la mise à jour des poids d'un réseau neuronal en utilisant l'algorithme de rétropropagation avec un terme de momentum, le taux d'apprentissage devrait-il également être appliqué au terme de momentum?

La plupart des informations que j'ai pu trouver sur l'utilisation de l'élan ont les équations ressemblant à ceci:

Wje=Wje-αΔWje+μΔWje-1

où est le taux d'apprentissage et est le terme de momentum.αμ

si le terme est plus grand que le terme , alors dans la prochaine itération, le de l'itération précédente aura une plus grande influence sur le poids que l'actuel.α Δ WμαΔW

Est-ce là le but du terme élan? ou l'équation devrait-elle ressembler davantage à ceci?

Wje=Wje-α(ΔWje+μΔWje-1)

c'est à dire. tout mettre à l'échelle par le taux d'apprentissage?

guskenny83
la source

Réponses:

10

En utilisant la rétropropagation avec élan dans un réseau avec poids différents la ème correction pour le poids est donnée parW k i W knWkjeWk

EΔWk(i)=αEWk+μΔWk(i1) où est la variation de la perte par rapport à . WkEWkWk

L'introduction de la quantité de mouvement permet l'atténuation des oscillations dans la descente de gradient. L'idée géométrique derrière cette idée peut probablement être mieux comprise en termes d'analyse de l'espace propre dans le cas linéaire. Si le rapport entre la valeur propre la plus basse et la plus grande est grand, alors la descente en gradient est lente même si le taux d'apprentissage est grand en raison du conditionnement de la matrice. L'élan introduit un certain équilibre dans la mise à jour entre les vecteurs propres associés à des valeurs propres plus petites et plus grandes.

Pour plus de détails, je me réfère à

http://page.mi.fu-berlin.de/rojas/neural/chapter/K8.pdf

Nico
la source
Que signifie la sous-attache?
David Richerby
ok, donc le terme momentum est incorporé lors du calcul du terme , plutôt que ajouté lors du calcul de la "nouvelle" valeur de poids? Juste pour clarifier, votre terme être ? ou s'agit-il d'une proportion du poids réel plutôt que de la variation du taux? merci pour votre réponse et pour le lien vers le document. μ W k ( i - 1 ) μ Δ W k ( i - 1 )ΔWkμWk(je-1)μΔWk(je-1)
guskenny83
merci d'avoir signalé l'erreur. C'est bien sûrΔWk(je-1)
nico
Qu'entendez-vous par «variation de la perte»? Est-ce quelque chose comme "variation de l'erreur"?
starbeamrainbowlabs
Cela ne signifie rien d'autre que la dérivée de l'erreur par rapport aux poids.
nico