Cela peut sembler idiot à quelqu'un qui a beaucoup d'expérience avec les réseaux de neurones, mais cela me dérange ...
Je veux dire que la randomisation des poids initiaux pourrait vous donner de meilleurs résultats qui seraient un peu plus proches de ce à quoi devrait ressembler le réseau formé, mais cela pourrait aussi être l'exact opposé de ce qu'il devrait être, tandis que 0,5 ou une autre moyenne pour la plage de poids raisonnable la valeur sonnerait comme un bon réglage par défaut ...
Pourquoi les poids initiaux pour les neurones sont-ils randomisés plutôt que 0,5 pour chacun d'eux?
neural-networks
training
Matas Vaitkevicius
la source
la source
Réponses:
Les poids initiaux dans un réseau de neurones sont initialisés de manière aléatoire car les méthodes basées sur le gradient couramment utilisées pour former les réseaux de neurones ne fonctionnent pas bien lorsque tous les poids sont initialisés à la même valeur. Bien que toutes les méthodes pour former les réseaux de neurones ne soient pas basées sur un gradient, la plupart d'entre elles le sont, et il a été démontré dans plusieurs cas que l'initialisation du réseau de neurones à la même valeur rend le réseau plus long à converger vers une solution optimale. De plus, si vous souhaitez recycler votre réseau de neurones parce qu'il s'est coincé dans un minimum local, il restera coincé dans le même minimum local. Pour les raisons ci-dessus, nous ne fixons pas les poids initiaux à une valeur constante.
Références: Pourquoi la rétropropagation ne fonctionne-t-elle pas lorsque vous initialisez les poids à la même valeur?
la source
Vous ne devriez pas attribuer tout à 0,5 car vous auriez le problème de "rupture de symétrie".
la source
C'est une question très profonde. Il y a eu récemment une série d'articles avec une preuve de convergence de la descente de gradient pour un réseau profond surparamétrisé (par exemple, Gradient Descent Finds Global Minima of Deep Neural Networks , A Convergence Theory for Deep Learning via Over-Parameterization ou Stochastic Gradient Descent Optimizes Optimized Over-parameterized Deep Réseaux ReLU ). Tous conditionnent la preuve à la distribution gaussienne aléatoire des poids. Son importance pour les épreuves dépend de deux facteurs:
Les poids aléatoires rendent la cartographie statistiquement compressive de ReLU (jusqu'à la transformation linéaire)
Les poids aléatoires préservent la séparation des entrées pour toute distribution d'entrée - c'est-à-dire que si les échantillons d'entrée sont distinguables, la propagation sur le réseau ne les rendra pas indiscernables
Ces propriétés très difficiles à reproduire avec des matrices déterministes, et même si elles sont reproductibles avec des matrices déterministes, l'espace NULL (domaine des exemples contradictoires) rendrait probablement la méthode impraticable, et une préservation plus importante de ces propriétés pendant la descente du gradient rendrait probablement la méthode impraticable. Mais dans l'ensemble, c'est très difficile mais pas impossible, et cela peut justifier des recherches dans ce sens. Dans une situation analogue, il y a eu quelques résultats pour la propriété d'isométrie restreinte pour les matrices déterministes dans la détection compressée .
la source