Il semble que l' optimiseur d' Adaptive Moment Estimation (Adam) fonctionne presque toujours mieux (plus rapidement et de manière plus fiable pour atteindre un minimum global) lors de la minimisation de la fonction de coût dans la formation des réseaux neuronaux.
Pourquoi ne pas toujours utiliser Adam? Pourquoi s'embêter à utiliser RMSProp ou des optimiseurs de momentum?
neural-network
optimization
PyRsquared
la source
la source
Réponses:
Voici un article de blog examinant un article affirmant que SGD est un meilleur adaptateur généralisé qu'ADAM. https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/
Il y a souvent une valeur à utiliser plus d'une méthode (un ensemble), car chaque méthode a une faiblesse.
la source
Vous devriez également jeter un œil à cet article comparant différents optimiseurs de descente de gradient. Comme vous pouvez le voir ci-dessous, Adam n'est clairement pas le meilleur optimiseur pour certaines tâches car beaucoup convergent mieux.
la source