Pourquoi la norme de lot a-t-elle une échelle et un décalage apprenants?

Pour autant que je le comprends, la norme de lot normalise toutes les caractéristiques d'entrée d'une couche à une distribution normale unitaire, . La moyenne et la variance sont estimées en mesurant leurs valeurs pour le mini-lot actuel. $\mathcal{N}(\mu=0,\sigma=1)$ $\mu, \sigma^2$

Après la normalisation, les entrées sont mises à l'échelle et décalées par des valeurs scalaires:

{\hat{x}}_{i}^{'} = γ {\hat{x}}_{i} + β

$\hat{x}_i' = \gamma \hat{x}_i + \beta$

(Corrigez-moi si je me trompe ici - c'est là que je commence à devenir un peu incertain.)

et sont des valeurs scalaires et il y en a une paire pour chaque couche normalisée par lot. Ils sont appris avec les poids en utilisant backprop et SGD. $\gamma$ $\beta$

Ma question est, ces paramètres ne sont-ils pas redondants parce que les entrées peuvent être mises à l'échelle et décalées de quelque façon que ce soit par les poids dans la couche elle-même. En d'autres termes, si

y = W {\hat{x}}^{'} + b

$y = W \hat{x}' + b$

{\hat{x}}^{'} = γ \hat{x} + β

$\hat{x}' = \gamma \hat{x} + \beta$

puis

y = W^{'} \hat{x} + b^{'}

$y = W' \hat{x} + b'$

$W' = W\gamma$ $b'=W\beta + b$

Quel est donc l'intérêt de les ajouter du réseau est déjà capable d'apprendre l'échelle et le changement? Ou suis-je totalement incompréhensible?

batch-normalization Timmmm
la source

Réponses:

Il y a une réponse parfaite dans le Deep Learning Book, Section 8.7.1 :

La normalisation de la moyenne et de l'écart-type d'une unité peut réduire la puissance expressive du réseau neuronal contenant cette unité. Pour maintenir la puissance expressive du réseau, il est courant de remplacer le lot d'activations d'unités cachées H par γH + β plutôt que simplement le H. normalisé. Les variables γ et β sont des paramètres appris qui permettent à la nouvelle variable d'avoir une moyenne et écart-type. À première vue, cela peut sembler inutile - pourquoi avons-nous mis la moyenne à 0, puis introduit un paramètre qui lui permet d'être remis à n'importe quelle valeur arbitraire β?

La réponse est que la nouvelle paramétrisation peut représenter la même famille de fonctions de l'entrée que l'ancienne paramétrisation, mais la nouvelle paramétrisation a des dynamiques d'apprentissage différentes. Dans l'ancienne paramétrisation, la moyenne de H a été déterminée par une interaction compliquée entre les paramètres dans les couches inférieures à H. Dans la nouvelle paramétrisation, la moyenne de γH + β est déterminée uniquement par β. La nouvelle paramétrisation est beaucoup plus facile à apprendre avec une descente en gradient.

Timmmm
la source