Lors de la mise à jour des poids d'un réseau neuronal en utilisant l'algorithme de rétropropagation avec un terme de momentum, le taux d'apprentissage devrait-il également être appliqué au terme de momentum?
La plupart des informations que j'ai pu trouver sur l'utilisation de l'élan ont les équations ressemblant à ceci:
où est le taux d'apprentissage et est le terme de momentum.
si le terme est plus grand que le terme , alors dans la prochaine itération, le de l'itération précédente aura une plus grande influence sur le poids que l'actuel.α Δ W
Est-ce là le but du terme élan? ou l'équation devrait-elle ressembler davantage à ceci?
c'est à dire. tout mettre à l'échelle par le taux d'apprentissage?
la source