Approximation de second ordre de la fonction de perte (livre d'apprentissage en profondeur, 7.33)

Dans le livre de Goodfellow (2016) sur l'apprentissage profond, il a parlé de l'équivalence de l'arrêt précoce de la régularisation L2 ( https://www.deeplearningbook.org/contents/regularization.html page 247).

L'approximation quadratique de la fonction de coût $j$ est donnée par:

\hat{J} (θ) = J (w^{*}) + \frac{1}{2} (w - w^{*})^{T} H (w - w^{*})

$\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*)$

où $H$ est la matrice de Hesse (Eq. 7.33). Est-ce que cela manque le moyen terme? L'expansion de Taylor doit être:

f (w + ϵ) = f (w) + f^{'} (w) \cdot ϵ + \frac{1}{2} f^{″} (w) \cdot ϵ^{2}

$f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2$

neural-networks deep-learning loss-functions derivative stevew
la source

Réponses:

Ils parlent des poids au mieux:

$J$ $w^∗$

À ce stade, la dérivée première est nulle - le terme moyen est donc laissé de côté.

Jan Kukacka
la source