Questions marquées «batch-normalization»

21
Comment et pourquoi la normalisation par lots utilise-t-elle des moyennes mobiles pour suivre la précision du modèle pendant son entraînement?

Je lisais le papier de normalisation par lots (BN) (1) et je ne comprenais pas la nécessité d'utiliser des moyennes mobiles pour suivre la précision du modèle et même si j'acceptais que c'était la bonne chose à faire, je ne comprends pas ce qu'ils font exactement. À ma connaissance (ce qui peut...

8
Existe-t-il des moyens de gérer le gradient de fuite pour les non-linéarités saturantes qui n'impliquent pas la normalisation par lots ou les unités ReLu?

Je voulais former un réseau avec des non-linéarités qui souffrent de la disparition (ou du problème de gradient explosif mais principalement de la disparition). Je sais que la méthode standard (actuelle) consiste à utiliser la normalisation par lots 1 [BN] 1 ou simplement à abandonner la...