Comment déterminer le taux d'apprentissage optimal pour la descente en pente? Je pense que je pourrais l'ajuster automatiquement si la fonction de coût renvoie une valeur supérieure à celle de l'itération précédente (l'algorithme ne convergera pas), mais je ne suis pas vraiment sûr de la nouvelle valeur qu'elle devrait prendre.
regression
machine-learning
gradient-descent
Valentin Radu
la source
la source
Réponses:
(Des années plus tard) recherchez la méthode de taille de pas de Barzilai-Borwein; onmyphd.com a une belle description de 3 pages. L'auteur dit
mais c'est terrible pour son applet de la fonction 2d Rosenbrock. Si quelqu'un utilise Barzilai-Borwein, veuillez commenter.
la source
Tu es sur la bonne piste. Une approche courante consiste à doubler la taille de l'étape chaque fois que vous effectuez une descente réussie et à diviser par deux la taille de l'étape lorsque vous allez accidentellement «trop loin». Vous pouvez bien sûr évoluer d'un facteur autre que 2, mais cela ne fera généralement pas une grande différence.
Des méthodes d'optimisation plus sophistiquées accéléreront probablement un peu la convergence, mais si vous devez lancer votre propre mise à jour pour une raison quelconque, ce qui précède est joliment simple et souvent assez bon.
la source