Dans le livre de Goodfellow (2016) sur l'apprentissage profond, il a parlé de l'équivalence de l'arrêt précoce de la régularisation L2 ( https://www.deeplearningbook.org/contents/regularization.html page 247).
L'approximation quadratique de la fonction de coût est donnée par:
où est la matrice de Hesse (Eq. 7.33). Est-ce que cela manque le moyen terme? L'expansion de Taylor doit être: