Somme ou moyenne des gradients en (mini) gradient de lot décent?

15

Lorsque j'ai implémenté un mini-gradient décent, j'ai simplement fait la moyenne des gradients de tous les exemples du lot de formation. Cependant, j'ai remarqué que maintenant le taux d'apprentissage optimal est beaucoup plus élevé que pour un gradient décent en ligne. Mon intuition est que c'est parce que le gradient moyen est moins bruyant et pourrait donc être suivi plus rapidement. Il est donc peut-être également logique de résumer les gradients d'un lot. Les valeurs peuvent de toute façon être positives et négatives.

Je sais que c'est juste un facteur constant qui peut être équilibré en utilisant le taux d'apprentissage. Mais je me demande quelle est la définition sur laquelle les scientifiques se sont mis d'accord pour que je puisse reproduire les résultats des papiers du réseau neuronal.

Divise-t-on généralement les gradients sommés d'un lot par la taille du lot?

danijar
la source

Réponses:

21

Moyenne.

Exemples: Notes du cours d'apprentissage automatique d'Andrew Ng sur Coursera compilé par Alex Holehouse.

En additionnant les gradients dus aux échantillons individuels, vous obtenez un dégradé beaucoup plus fluide. Plus le lot est grand, plus le gradient résultant est utilisé pour mettre à jour le poids.

Diviser la somme par la taille du lot et prendre le gradient moyen a pour effet:

  1. L'ampleur du poids ne croît pas hors de proportion. L'ajout de la régularisation L2 à la mise à jour du poids pénalise les valeurs de poids importantes. Cela conduit souvent à une amélioration des performances de généralisation. En prenant la moyenne, surtout si les gradients pointent dans la même direction, évitez que les poids deviennent trop grands.
  2. L'amplitude du gradient est indépendante de la taille du lot. Cela permet de comparer les poids d'autres expériences utilisant différentes tailles de lots.
  3. Contrer l'effet de la taille du lot avec le taux d'apprentissage peut être numériquement équivalent, mais vous vous retrouvez avec un taux d'apprentissage spécifique à l'implémentation. Il est difficile de communiquer vos résultats et votre configuration expérimentale si les gens ne peuvent pas se rapporter à l'échelle des paramètres que vous utilisez et qu'ils auront du mal à reproduire votre expérience.

La moyenne permet une comparabilité plus claire et maintient les grandeurs de gradient indépendantes de la taille du lot. Le choix d'une taille de lot est parfois limité par les ressources de calcul dont vous disposez et vous souhaitez en atténuer l'effet lors de l'évaluation de votre modèle.

ypx
la source
Le lien est maintenant mort
cdeterman
1
lien mis à jour, ne peut plus créer de lien vers les diapositives originales, alors j'ai opté pour des notes bien compilées par Alex Holehouse .
ypx
Ce tutoriel semble aller pour la sommation au lieu de la moyenne .. deeplearning.net/tutorial/gettingstarted.html#regularization
AD