Comment le biais devrait-il être initialisé et régularisé?

13

J'ai lu quelques articles sur l'initialisation du noyau et de nombreux articles mentionnent qu'ils utilisent la régularisation L2 du noyau (souvent avec ).λ=0.0001

Quelqu'un fait-il autre chose que d'initialiser le biais avec un zéro constant et de ne pas le régulariser?

Documents d'initialisation du noyau

Martin Thoma
la source

Réponses:

15

À partir des notes de Stanford CS231N ( http://cs231n.github.io/neural-networks-2/ ):

Initialisation des biais. Il est possible et courant d'initialiser les biais à zéro, car la rupture de l'asymétrie est fournie par les petits nombres aléatoires dans les poids. Pour les non-linéarités ReLU, certaines personnes aiment utiliser une petite valeur constante telle que 0,01 pour tous les biais, car cela garantit que toutes les unités ReLU se déclenchent au début et donc obtiennent et propagent un certain gradient. Cependant, il n'est pas clair si cela fournit une amélioration cohérente (en fait, certains résultats semblent indiquer que cela fonctionne moins bien) et il est plus courant d'utiliser simplement une initialisation à biais 0.

Dans les LSTM, il est courant d'initialiser les biais à 1 - voir par exemple http://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf .

Lukas Biewald
la source