Pourquoi ne pas toujours utiliser la technique d'optimisation ADAM?

13

Il semble que l' optimiseur d' Adaptive Moment Estimation (Adam) fonctionne presque toujours mieux (plus rapidement et de manière plus fiable pour atteindre un minimum global) lors de la minimisation de la fonction de coût dans la formation des réseaux neuronaux.

Pourquoi ne pas toujours utiliser Adam? Pourquoi s'embêter à utiliser RMSProp ou des optimiseurs de momentum?

PyRsquared
la source
1
Je ne pense pas qu'il existe un moyen strict et formalisé d'appuyer l'une ou l'autre déclaration. Tout est purement empirique, car la surface d'erreur est inconnue. En règle générale, et uniquement par expérience m, ADAM réussit bien là où d'autres échouent (segmentation d'instance), mais pas sans inconvénients (la convergence n'est pas monotone)
Alex
2
Adam est plus rapide à converger. SGD est plus lent mais se généralise mieux. Donc, à la fin, tout dépend de votre situation particulière.
agcala

Réponses:

5

Vous devriez également jeter un œil à cet article comparant différents optimiseurs de descente de gradient. Comme vous pouvez le voir ci-dessous, Adam n'est clairement pas le meilleur optimiseur pour certaines tâches car beaucoup convergent mieux.


la source
Pour mémoire: dans l'article lié, ils mentionnent certains des défauts d'ADAM et présentent AMSGrad comme solution. Cependant, ils concluent que si AMSGrad surpasse ADAM dans les pratiques est (au moment de la rédaction) non concluante.
Lus