J'ai une fonction objective dépendante d'une valeur , où est la solution d'un PDE. J'optimise par descente de gradient sur la condition initiale de la PDE: . Autrement dit, je mets à jour puis dois intégrer le PDE pour calculer mon résidu. Cela signifie que si je faisais une recherche de ligne pour la taille du pas de descente de gradient (appelez-la ), pour chaque valeur potentielle de je devrais réintégrer la PDE.
Dans mon cas, ce serait trop cher. Existe-t-il une autre option pour la taille de pas de descente de gradient adaptatif?
Je ne recherche pas seulement des schémas de principes mathématiques ici (bien que ce soit mieux si quelque chose existe), mais je serais satisfait de tout ce qui est généralement mieux qu'une taille de pas statique.
Merci!
la source
Réponses:
Je vais commencer par une remarque générale: les informations de premier ordre (c'est-à-dire, en utilisant uniquement des gradients, qui codent la pente) ne peuvent que vous donner des informations directionnelles: elles peuvent vous dire que la valeur de la fonction diminue dans le sens de la recherche, mais pas pendant combien de temps . Pour décider jusqu'où aller dans la direction de la recherche, vous avez besoin d'informations supplémentaires (la descente de gradient avec des longueurs de pas constantes peut échouer même pour des problèmes quadratiques convexes). Pour cela, vous avez essentiellement deux choix:
Une approche alternative (et, à mon avis, bien meilleure) consisterait à utiliser déjà cette approximation aux différences finies dans le calcul de la direction de recherche; c'est ce qu'on appelle une méthode quasi-Newton . L'idée est de construire progressivement une approximation de la Hesse en utilisant des différences de gradients. Par exemple, vous pouvez prendre (la matrice d'identité) et pour résoudre et définissez avec comme ci-dessus et . (Cela s'appelle la mise à jour Broyden∇2f(xk) H0=Id k=0,…
Heureusement, dans ce contexte, il existe une approche alternative qui utilise chaque évaluation de fonction. L'idée est que pour symétrique et positif défini (qui est garanti pour la mise à jour BFGS), la résolution de équivaut à minimiser le modèle quadratique Dans une méthode de région de confiance , vous le feriez avec la contrainte supplémentaire que , où est un rayon de région de confiance choisi de manière appropriée (qui joue le rôle de la longueur de pas ). L'idée clé est maintenant de choisir ce rayon de manière adaptative, en fonction de l'étape calculée. Plus précisément, vous regardez le rapportHk (1)
la source