Récemment, j'ai lu un article de Yann Dauphin et al. Identifier et attaquer le problème du point de selle dans l'optimisation non convexe de haute dimension , où ils introduisent un algorithme de descente intéressant appelé Saddle-Free Newton , qui semble être exactement adapté pour l'optimisation du réseau neuronal et ne devrait pas souffrir de se coincer aux points de selle comme les méthodes de premier ordre comme SGD vanille.
Le papier remonte à 2014, donc ce n'est rien de nouveau, cependant, je ne l'ai pas vu utilisé "à l'état sauvage". Pourquoi cette méthode n'est-elle pas utilisée? Le calcul de la Hesse est-il trop prohibitif pour des problèmes / réseaux de taille réelle? Existe-t-il même une implémentation open source de cet algorithme, pouvant être utilisée avec certains des principaux frameworks d'apprentissage en profondeur?
Mise à jour février 2019: une implémentation est disponible dès maintenant: https://github.com/dave-fernandes/SaddleFreeOptimizer )
la source
Réponses:
Une meilleure optimisation ne signifie pas nécessairement un meilleur modèle. En fin de compte, nous nous soucions de la façon dont le modèle se généralise, et pas nécessairement de la qualité des performances sur l'ensemble d'entraînement. Les techniques d'optimisation plus sophistiquées fonctionnent généralement mieux et convergent plus rapidement sur l'ensemble d'entraînement, mais ne généralisent pas toujours ainsi que les algorithmes de base. Par exemple, cet article montre que SGD peut mieux se généraliser que l'optimiseur ADAM. Cela peut également être le cas avec certains algorithmes d'optimisation de second ordre.
[Modifier] Suppression du premier point car il ne s'applique pas ici. Merci à bayerj de l'avoir signalé.
la source