La décroissance de poids spécifie la régularisation dans le réseau neuronal.
Pendant la formation, un terme de régularisation est ajouté à la perte du réseau pour calculer le gradient de rétropropagation. La weight decay
valeur détermine la dominance de ce terme de régularisation dans le calcul du gradient.
En règle générale, plus vous avez d'exemples de formation, plus ce terme devrait être faible. Plus vous avez de paramètres, plus ce terme doit être élevé.
Ainsi, la décroissance du poids est un terme de régularisation qui pénalise les gros poids. Lorsque le coefficient de décroissance du poids est grand, la pénalité pour les gros poids est également grande, quand ce sont de petits poids qui peuvent croître librement.
Donc, maintenant, si vous revenez à la lecture de la réponse que vous avez liée dans votre question, cela aurait tout à fait un sens maintenant.