J'enseigne un cours d'enquête en analyse numérique et je recherche la motivation pour la méthode BFGS pour les étudiants ayant une formation / intuition limitée en optimisation!
Bien que je n'aie pas le temps de prouver rigoureusement que tout converge, je cherche à donner une motivation raisonnable pour expliquer pourquoi la mise à jour BFGS Hessian pourrait apparaître. À titre d'analogie, la méthode de recherche de racines de Broyden (mon article est ici ) peut être motivée en demandant que votre approximation actuelle du jacobien minimise la différence avec l'ancien jacobien sous la contrainte de prendre en compte la dernière sécante: .
Les dérivations des mises à jour de BFGS semblent beaucoup plus compliquées et troubles! En particulier, je ne voudrais pas supposer a priori que la mise à jour devrait être de rang 2 ou prendre une forme particulière. Y a-t-il une courte motivation de variation pour la mise à jour de BFGS Hessian comme celle de Broyden?
la source
Réponses:
La dérivation du BFGS est plus intuitive quand on considère les fonctionnelles de coût (strictement) convexes:
Cependant, certains fond informations sont nécessaires: Supposons que l' on veut réduire au minimum une convexe fonctionnelle Supposons qu'il existe une solution approximative . Ensuite, on rapproche le minimum de par le minimum de l'expansion de Taylor tronquée Autrement dit, on cherche tel que est minimal et fixe . Le calcul du gradient de - "par rapport à " - et sa mise à zéro donne la relation x k f f ( x k
Puisque le calcul et l'inversion de la toile de jute coûtent cher ...
... une réponse courte
(cf. mise à jour de Broyden) pourrait être que la mise à jour BFGS minimise dans une norme Frobenius pondérée intelligemment choisie, sujet à ‖ H - 1 k - H - 1 ‖ OH- 1k + 1
Ensuite, le choix du poids dansW ∥ H∥W: = ∥ W1 / 2HW1 / 2∥F
G : = ∫10H( xk+ τp ) dτ αk= 1
comme l'inverse dela moyenne de Hesse , cf. ici pour l'instruction mais sans preuve, donne la formule de mise à jour BFGS (avec ).Les points principaux sont:
Une réponse plus longue devrait inclure comment choisir les poids, comment faire fonctionner cela pour des problèmes non convexes (où une condition de courbure apparaît qui nécessite une mise à l'échelle de la direction de recherche ), et comment dériver la formule réelle de la mise à jour. Une référence est ici (en allemand).p
la source