Taille du pas de descente de gradient adaptatif lorsque vous ne pouvez pas faire de recherche de ligne

J'ai une fonction objective $E$ dépendante d'une valeur $\phi(x, t = 1.0)$ , où $\phi(x, t)$ est la solution d'un PDE. J'optimise $E$ par descente de gradient sur la condition initiale de la PDE: $\phi(x, t = 0.0)$ . Autrement dit, je mets à jour $\phi(x, t = 0.0)$ puis dois intégrer le PDE pour calculer mon résidu. Cela signifie que si je faisais une recherche de ligne pour la taille du pas de descente de gradient (appelez-la $\alpha$ ), pour chaque valeur potentielle de $\alpha$ je devrais réintégrer la PDE.

Dans mon cas, ce serait trop cher. Existe-t-il une autre option pour la taille de pas de descente de gradient adaptatif?

Je ne recherche pas seulement des schémas de principes mathématiques ici (bien que ce soit mieux si quelque chose existe), mais je serais satisfait de tout ce qui est généralement mieux qu'une taille de pas statique.

Merci!

optimization pde conjugate-gradient NLi10Me
la source

Je ne pense pas que je veux modifier la façon dont j'intègre le PDE pour le moment, car pour moi ce serait une réécriture majeure du code. De plus, ce n'est pas tant que le PDE est délicat, car je dois le résoudre sur une grille très dense dans l'espace-temps car j'ai besoin d'une très grande précision numérique.

NLi10Me

D'un autre côté, la méthode BB (que je ne connaissais pas) semble assez bonne; tout ce que j'ai à faire, c'est de suivre l'état et le gradient de l'itération précédente et j'obtiens une approximation de second ordre ... cela semble très bien. Cependant, la dérivation suppose un quadratique convexe et mon problème ne l'est certainement pas. Cependant, je trouve aussi (et je suis satisfait) des minima locaux plutôt que globaux. Savez-vous à quel point BB a performé sur des problèmes dimensionnels très élevés?

NLi10Me

Je suppose que ce que je voulais dire sur les minima locaux est que, au voisinage d'un minimum local, aucune fonction n'est-elle approximativement quadratique? Je pense que mon état initial

est suffisamment proche d'un minimum, car dans de nombreux cas, j'obtiens une convergence régulière même avec la taille de pas statique. Donc, même si sa dimension est très élevée, et en général, si vous considérez tout l'espace de recherche, le problème est non convexe / non quadratique, BB pourrait-il toujours être un bon choix sans recherche de ligne?

ϕ^{(0)} (x, t = 0.0)

$\phi^{(0)}(x, t = 0.0)$

NLi10Me

Les autres «ingrédients» de

sont des données d'images expérimentales.

tente de déformer une image pour qu'elle "corresponde" à l'autre (mesurée par des fonctions de correspondance comme la norme L2 intégrée sur les voxels). Pour certaines paires d'images, j'obtiens une convergence fluide avec (mon choix actuel) la taille de pas statique. Pour les autres paires d'images, j'obtiens beaucoup d'oscillation. Le système doit être entièrement automatisé, donc je ne peux pas revenir en arrière et modifier manuellement la taille des pas pour les paires d'images gênantes.

E

$E$

ϕ (x, t = 1.0)

$\phi(x, t = 1.0)$

NLi10Me

À droite, je dois résoudre le système adjoint pour obtenir le gradient (qui est un système plus méchant et prend plus de temps). Ok, je pense que je vais essayer BB avec la recherche de ligne de retour en arrière. Merci très bien pour les conseils; mes conseillers sont souvent difficiles à trouver et beaucoup d'entre eux ne s'intéressent pas tant à la mise en œuvre qu'au modèle. Je trouve que les méthodes numériques sont l' élément crucial pour démontrer si un modèle est bon ou non en premier lieu, donc merci encore, je l'apprécie vraiment.

NLi10Me

Je vais commencer par une remarque générale: les informations de premier ordre (c'est-à-dire, en utilisant uniquement des gradients, qui codent la pente) ne peuvent que vous donner des informations directionnelles: elles peuvent vous dire que la valeur de la fonction diminue dans le sens de la recherche, mais pas pendant combien de temps . Pour décider jusqu'où aller dans la direction de la recherche, vous avez besoin d'informations supplémentaires (la descente de gradient avec des longueurs de pas constantes peut échouer même pour des problèmes quadratiques convexes). Pour cela, vous avez essentiellement deux choix:

$1$
Essais et erreurs (j'entends par là bien sûr utiliser une recherche de ligne appropriée comme Armijo).

$\mathcal{O}(1)$

$\alpha_0>0$ $g^0:=\nabla f(x^0)$ $k=0,...$

$s^k = -\alpha_k^{-1} g^k$ $x^{k+1}=x^k+s^k$
$g^{k+1}=\nabla f(x^{k+1})$ $y^k = g^{k+1}-g^{k}$
$\alpha_{k+1} = \frac{(y^k)^Ty^k}{(y^k)^Ts^k}$

$f(x^{k+1})$ $f(x^k)$ $\sigma_k \in (0,\alpha_k^{-1})$

f (x^{k} - σ_{k} g^{k}) \leq max_{max (k - M, 1) \leq j \leq k} f (x^{j}) - γ σ_{k} (g^{k})^{T} g^{k},

$f(x^k - \sigma_k g^k) \leq \max_{\max(k-M,1)\leq j\leq k} f(x^j) - \gamma \sigma_k (g^k)^Tg^k,$

γ \in (0, 1)

$\gamma\in(0,1)$

M

$M$

M = 10

$M=10$

Une approche alternative (et, à mon avis, bien meilleure) consisterait à utiliser déjà cette approximation aux différences finies dans le calcul de la direction de recherche; c'est ce qu'on appelle une méthode quasi-Newton . L'idée est de construire progressivement une approximation de la Hesse en utilisant des différences de gradients. Par exemple, vous pouvez prendre (la matrice d'identité) et pour résoudre et définissez avec comme ci-dessus et . (Cela s'appelle la mise à jour Broyden $\nabla^2 f(x^k)$ $H_0=\mathrm{Id}$ $k=0,\dots$

\begin{matrix} (1) & H_{k} s^{k} = - g^{k}, \end{matrix}

$H_{k}s^{k} = -g^{k},\label{cc1}\tag{1}$

H_{k + 1} = H_{k} + \frac{(y^{k} - H_{k} s^{k})^{T} (s^{k})^{T}}{(s^{k})^{T} s^{k}}

$H_{k+1} = H_k + \frac{(y^k-H_ks^k)^T(s^k)^T}{(s^k)^Ts^k}$

y^{k}

$y^k$

x^{k + 1} = x^{k} + s^{k}

$x^{k+1} = x^k +s^k$ et est rarement utilisé dans la pratique; une mise à jour meilleure mais légèrement plus compliquée est la mise à jour BFGS , pour laquelle - et plus d'informations - je me réfère au livre de Nocedal et Wright Numerical Optimization .) L'inconvénient est que a) cela nécessiterait la résolution d'un système linéaire à chaque étape (mais seulement de la taille de l'inconnu qui dans votre cas est une condition initiale, donc l'effort doit être dominé par la résolution des PDE pour obtenir le gradient; il existe également des règles de mise à jour pour les approximations de la Hesse inverse , qui ne nécessitent que le calcul d'une seule matrice -produit vectoriel) et b) vous avez encore besoin d'une recherche de ligne pour garantir la convergence ...

Heureusement, dans ce contexte, il existe une approche alternative qui utilise chaque évaluation de fonction. L'idée est que pour symétrique et positif défini (qui est garanti pour la mise à jour BFGS), la résolution de équivaut à minimiser le modèle quadratique Dans une méthode de région de confiance , vous le feriez avec la contrainte supplémentaire que , où est un rayon de région de confiance choisi de manière appropriée (qui joue le rôle de la longueur de pas ). L'idée clé est maintenant de choisir ce rayon de manière adaptative, en fonction de l'étape calculée. Plus précisément, vous regardez le rapport $H_k$ $\eqref{cc1}$

q_{k} (s) = \frac{1}{2} s^{T} H_{k} s + s^{T} g^{k} .

$q_k(s) = \frac12 s^T H_k s + s^T g^k.$

‖ s ‖ \leq Δ_{k}

$\|s\| \leq \Delta_k$

Δ_{k}

$\Delta_k$

σ_{k}

$\sigma_k$

ρ_{k} := \frac{f (x^{k}) - f (x^{k} + s^{k})}{f (x^{k}) - q_{k} (s^{k})}

$\rho_k := \frac{f(x^k)-f(x^k+s^k)}{f(x^k)-q_k(s^k)}$ de la réduction réelle et prévue de la valeur de la fonction. Si est très petit, votre modèle était mauvais et vous jetez et réessayez avec . Si est proche de , votre modèle est bon et vous définissez et augmentez . Sinon, vous définissez simplement et laissez seul. Pour calculer le minimiseur réel de

ρ_{k}

$\rho_k$

s^{k}

$s^k$

Δ_{k + 1} < Δ_{k}

$\Delta_{k+1}<\Delta_k$

ρ_{k}

$\rho_k$

1

$1$

x^{k + 1} = x^{k} + s^{k}

$x^{k+1}=x^k+s^k$

Δ_{k + 1} > Δ_{k}

$\Delta_{k+1}>\Delta_k$

x^{k + 1} = x^{k} + s^{k}

$x^{k+1}=x^k+s^k$

Δ_{k}

$\Delta_k$

s^{k}

$s^k$

min_{‖ s ‖ \leq Δ_{k}} q_{k} (s)

$\min_{\|s\|\leq \Delta_k} q_k(s)$ , il existe plusieurs stratégies pour éviter d'avoir à résoudre le problème d'optimisation entièrement contraint; mon préféré est la méthode CG tronquée de Steihaug . Pour plus de détails, je me réfère à nouveau à Nocedal et Wright.

Christian Clason
la source

Je suis en train de revoir cela et je me rends compte que j'ai une question. À l'étape trois pour la méthode BB, vous avez ; où et . Le numérateur et le dénominateur dans l'expression de ressemblent à des produits intérieurs. Dans mon cas, , où est un espace vectoriel avec une métrique riemannienne non triviale: K. Autrement dit, . Est-ce que cela affecte la définition de ?

α_{k + 1} = \frac{(y^{k})^{T} y^{k}}{(y^{k})^{T} s^{k}}

$\alpha_{k+1} = \frac{(y^k)^Ty^k}{(y^k)^Ts^k}$

y^{k} = g^{k + 1} - g^{k}

$y^{k} = g^{k+1} - g^k$

s^{k} = - α_{k}^{- 1} g^{k}

$s^k = -\alpha_k^{-1}g^k$

α_{k + 1}

$\alpha_{k+1}$

g^{k} \in V^{*}

$g^k \in V^*$

V^{*}

$V^*$

⟨ g^{k}, g^{k} ⟩_{V^{*}} = ⟨ g^{k}, K g^{k} ⟩_{L_{2}}

$\langle g^k, g^k \rangle _{V^*} = \langle g^k, Kg^k \rangle_{L_2}$

α_{k + 1}

$\alpha_{k+1}$

NLi10Me

Oui, si vous avez une structure d'espace vectoriel non triviale, vous devez respecter cela dans les algorithmes. En particulier, vous devez distinguer les produits internes de deux fonctions dans le même espace (par exemple, et ) et les produits de dualité entre une fonction dans l'espace et une dans le double espace (par exemple, et ) - pour ce dernier, vous devez d'abord inclure la cartographie Riesz pour la transformer en produit intérieur. (Cela peut être interprété comme un préconditionnement.)

y^{k}

$y^k$

y^{k}

$y^k$

s^{k}

$s^k$

y^{k}

$y^k$

Christian Clason

Dr.Clason, je soumettrai un article à l'ISBI 2017 détaillant certaines expériences que j'ai faites en utilisant la méthode de recherche de ligne BB + pour une tâche d'enregistrement d'images difféomorphes. Souhaitez-vous être inclus comme auteur sur le manuscrit? Je ne l'ai pas encore écrit, mais j'ai la plupart des expériences terminées ou en cours. S'il vous plaît, faites-moi savoir.

NLi10Me

@ NLi10Me Merci pour cette aimable offre, mais je n'ai rien fait qui mérite d'être coauteur - tout ce que j'ai écrit est du matériel standard. Si vous y tenez beaucoup, vous pouvez me remercier pour "des remarques utiles sur (tout ce qui a aidé)", mais même cela ne serait pas nécessaire. Savoir que ce que j'ai écrit était utile suffit!

Christian Clason

Désolé, vous avez raison, c'est une faute de frappe - corrigé! (La condition Armijo est souvent écrite comme , où est le sens de la recherche - pas nécessairement le négatif gradient - et la taille du pas, ce qui devrait clarifier ce qui se passe.)

f (x + σ s) - f (x) \leq γ \nabla f (x)^{T} (σ s)

$f(x+\sigma s) - f(x) \leq \gamma\nabla f(x)^T(\sigma s)$

s

$s$

σ

$\sigma$

Christian Clason

Taille du pas de descente de gradient adaptatif lorsque vous ne pouvez pas faire de recherche de ligne

Réponses: