Par définition, Relu est max(0,f(x))
. Ensuite , son gradient est défini comme suit:
1 if x > 0 and 0 if x < 0
.
Cela ne signifierait-il pas que le gradient est toujours 0 (disparaît) lorsque x <0? Alors pourquoi dit-on que Relu ne souffre pas du problème de disparition du gradient?
la source
La disparition signifie qu'elle va vers 0 mais ne sera jamais vraiment 0. Avoir des gradients de 0 rend les calculs très faciles, avoir des gradients proches de 0 signifie qu'il y a des changements, juste de très petits qui signifient un apprentissage lent et des problèmes numériques. 1 et 0 sont deux des nombres les plus faciles à calculer dans ce type de problèmes d'optimisation.
la source