La littérature sur l'apprentissage en profondeur regorge de trucs astucieux avec l'utilisation de taux d'apprentissage non constants dans la descente de gradient. Des choses comme la décroissance exponentielle, RMSprop, Adagrad, etc. sont faciles à mettre en œuvre et sont disponibles dans tous les packages d'apprentissage en profondeur, mais elles semblent inexistantes en dehors des réseaux de neurones. Y a-t-il une raison quelconque pour cela? Si c'est simplement que les gens s'en moquent, y a-t-il une raison pour laquelle nous ne devons pas nous soucier en dehors des réseaux de neurones?
14
Réponses:
Avertissement: je n'ai pas beaucoup d'expérience avec l'optimisation en dehors des réseaux de neurones, donc ma réponse sera clairement biaisée, mais il y a plusieurs choses qui jouent un rôle:
(Deep) des réseaux de neurones ont beaucoup de paramètres . Cela a plusieurs implications:
Premièrement, il exclut en quelque sorte les méthodes d'ordre supérieur simplement parce que le calcul de la Hesse et des dérivés supérieurs devient irréalisable. Dans d'autres domaines, cela peut être une approche valide mieux que tout ajustement de SGD.
Deuxièmement, bien que SGD soit merveilleux , il a tendance à être lent. Ces variantes améliorées de SGD permettent principalement une formation plus rapide, tout en perdant potentiellement certaines des belles propriétés de SGD . Dans d'autres domaines, le temps de formation SGD peut ne pas être le goulot d'étranglement, donc les améliorations obtenues en l'accélérant peuvent être tout simplement négligeables.
La formation de réseaux de neurones (profonds) est une optimisation non convexe et je ne connais pas de résultats significatifs de relaxation convexe dans le domaine. Contrairement à d'autres domaines, les réseaux de neurones ne sont pas axés sur des solutions globalement optimales prouvées, ce qui conduit à investir plus d'efforts dans l'amélioration des propriétés de la surface de perte et de sa traversée lors de l'optimisation.
Dans d'autres domaines, l'utilisation de la relaxation convexe et l'obtention de solutions globalement optimales peuvent être au centre de l'intérêt au lieu de l'algorithme d'optimisation, car une fois que le problème est défini comme un problème convexe, le choix de l'algorithme d'optimisation ne peut pas améliorer la qualité de la solution .
Je suppose que cette réponse ne couvre pas tous les aspects possibles et je suis moi-même curieux de connaître d'autres opinions.
la source