Je savais que Residual Network (ResNet) rendait populaire l’initialisation normale. Dans ResNet, l'initialisation normale He est utilisée , tandis que la première couche utilise l'initialisation uniforme He.
J'ai parcouru les papiers ResNet et "Delving Deep into Rectifiers" (papier d'initialisation He), mais je n'ai trouvé aucune mention sur init normal ou uniforme.
Aussi:
La normalisation par lots nous permet d’utiliser des vitesses d’apprentissage beaucoup plus élevées et d’être moins prudent lors de l’initialisation.
Dans le résumé de l'article sur la normalisation par lots, il est dit que la normalisation par lots nous permet de faire moins attention à l'initialisation.
ResNet lui-même reste attentif quant au moment d'utiliser init normal par rapport à init uniforme (plutôt que de simplement utiliser l'uniforme init).
Alors:
- Quand utiliser (He ou Glorot) l'initialisation distribuée normale par rapport à l'initialisation uniforme?
- Que sont les effets d'initialisation à distribution normale avec la normalisation par lots?
Notes à part:
- Cela rime d'utiliser normal init avec Batch Normalization, mais je n'ai trouvé aucun papier pour confirmer ce fait.
- Je savais que ResNet utilisait He init sur Glorot init car He init réussissait mieux sur un réseau profond.
- J'ai compris Glorot init vs He init .
- Ma question concerne Normal vs Uniform init.
Veuillez prendre une lecture hyper-paramètres en action! Partie II - Initialiseurs de poids
la source