Pourquoi sqrt (6) est-il utilisé pour calculer epsilon pour l'initialisation aléatoire des réseaux de neurones?

Dans la semaine 5 notes de cours pour Coursera machine de classe d' apprentissage Andrew Ng , la formule suivante est donnée pour le calcul de la valeur de utilisé pour initialiser avec des valeurs aléatoires: $\epsilon$ $\Theta$

Dans l' exercice , des précisions sont apportées:

Une stratégie efficace pour choisir $\epsilon_{init}$ consiste à le baser sur le nombre d'unités du réseau. Un bon choix de $\epsilon_{init}$ est $\epsilon_{init} = \frac{\sqrt{6}}{\sqrt{L_{in} - L_{out}}}$ , où $L_{in} = s_l$ et $L_{out} = s_{l+1}$ sont le nombre d'unités dans les couches adjacentes à $\Theta^{(l)}$ .

Pourquoi la constante $\sqrt 6$ utilisée ici? Pourquoi pas $\sqrt 5$ , $\sqrt 7$ ou $\sqrt {6.1}$ ?

machine-learning neural-networks random-generation Tom Hale
la source

Réponses:

Je pense que c'est l' initialisation normalisée de Xavier (implémentée dans plusieurs cadres d'apprentissage profond, par exemple Keras, Cafe, ...) de Understanding the difficult of training deep deep feedforward neural networks par Xavier Glorot & Yoshua Bengio.

Voir les équations 12, 15 et 16 dans l'article lié: elles visent à satisfaire l'équation 12:

Var [W_{i}] = \frac{2}{n_{i} + n_{i + 1}}

$\text{Var}[W_i] = \frac{2}{n_i + n_{i+1}}$

et la variance d'un RV uniforme dans est (la moyenne est nulle, pdf = donc variance $[-\epsilon,\epsilon]$ $\epsilon^2/3$ $1/(2\epsilon)$ $=\int_{-\epsilon}^{\epsilon}x^2 \frac{1}{2\epsilon}dx$

seanv507
la source

Hmm, alors pourquoi utiliser au lieu de ?

\sqrt{6}

$\sqrt 6$

2

$2$

Tom Hale

Branchez epsilon dans la formule de variance de la variable aléatoire uniforme en +/- x et qu'obtenez-vous?

seanv507

Ah! Je vois maintenant dans les formules (16) que est utilisé. D'où obtenez-vous 2/3?

[- ϵ, ϵ]

$[-\epsilon, \epsilon]$

x^{2} / 3

$x^2 / 3$

Tom Hale

ajout d'une explication pour la variance du RV uniforme ...

seanv507