Momentum est utilisé pour diminuer les fluctuations de poids lors d’itérations successives:
où est la fonction d'erreur, - le vecteur de poids, - taux d'apprentissage.
Weight decay pénalise les changements de poids:
La question est de savoir s'il est judicieux de combiner les deux astuces lors de la rétro-propagation et quel effet cela aurait-il?
neural-networks
optimization
regularization
gradient-descent
Oleg Shirokikh
la source
la source
Réponses:
Oui, il est très courant d'utiliser les deux astuces. Ils résolvent différents problèmes et peuvent bien fonctionner ensemble.
Une façon de penser à cela est que la perte de poids modifie la fonction en cours d'optimisation , tandis que la quantité de mouvement modifie le chemin que vous suivez .
La diminution du poids, en réduisant vos coefficients vers zéro, vous assure de trouver un optimum local avec des paramètres de faible amplitude. Ceci est généralement crucial pour éviter les surajustements (bien que d'autres types de contraintes sur les poids puissent également fonctionner). En contrepartie, il peut également être plus facile d'optimiser le modèle en rendant la fonction objectif plus convexe.
Une fois que vous avez une fonction objective, vous devez décider comment vous y déplacer. L’approche la plus simple est la descente la plus raide sur le gradient, mais vous avez raison de dire que les fluctuations peuvent être un gros problème. Ajouter de la dynamique aide à résoudre ce problème. Si vous travaillez avec des mises à jour par lots (ce qui est généralement une mauvaise idée avec les réseaux de neurones), les étapes de type Newton sont une autre option. Les nouvelles approches "à chaud" sont basées sur le gradient accéléré de Nesterov et sur l'optimisation dite "sans hesse".
Mais quelles que soient les règles de mise à jour que vous utilisez (momentum, Newton, etc.), vous travaillez toujours avec la même fonction objectif, qui est déterminée par votre fonction d'erreur (par exemple, l'erreur au carré) et d'autres contraintes (par exemple, la perte de poids). . La principale question à prendre en compte pour décider lequel d’entre eux utiliser est la rapidité avec laquelle vous obtiendrez un bon ensemble de poids.
la source