Approximation de second ordre de la fonction de perte (livre d'apprentissage en profondeur, 7.33)

11

Dans le livre de Goodfellow (2016) sur l'apprentissage profond, il a parlé de l'équivalence de l'arrêt précoce de la régularisation L2 ( https://www.deeplearningbook.org/contents/regularization.html page 247).

L'approximation quadratique de la fonction de coût j est donnée par:

J^(θ)=J(w)+12(ww)TH(ww)

H est la matrice de Hesse (Eq. 7.33). Est-ce que cela manque le moyen terme? L'expansion de Taylor doit être:

f(w+ϵ)=f(w)+f(w)ϵ+12f(w)ϵ2

stevew
la source

Réponses:

15

Ils parlent des poids au mieux:

Jw

À ce stade, la dérivée première est nulle - le terme moyen est donc laissé de côté.

Jan Kukacka
la source