Comment le biais devrait-il être initialisé et régularisé?

Réponses:

À partir des notes de Stanford CS231N ( http://cs231n.github.io/neural-networks-2/ ):

Initialisation des biais. Il est possible et courant d'initialiser les biais à zéro, car la rupture de l'asymétrie est fournie par les petits nombres aléatoires dans les poids. Pour les non-linéarités ReLU, certaines personnes aiment utiliser une petite valeur constante telle que 0,01 pour tous les biais, car cela garantit que toutes les unités ReLU se déclenchent au début et donc obtiennent et propagent un certain gradient. Cependant, il n'est pas clair si cela fournit une amélioration cohérente (en fait, certains résultats semblent indiquer que cela fonctionne moins bien) et il est plus courant d'utiliser simplement une initialisation à biais 0.

Dans les LSTM, il est courant d'initialiser les biais à 1 - voir par exemple http://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf .

Lukas Biewald
la source

Comment le biais devrait-il être initialisé et régularisé?

Documents d'initialisation du noyau

Réponses: