Pourquoi les poids initiaux dans le réseau neuronal sont randomisés?

10

Cela peut sembler idiot à quelqu'un qui a beaucoup d'expérience avec les réseaux de neurones, mais cela me dérange ...

Je veux dire que la randomisation des poids initiaux pourrait vous donner de meilleurs résultats qui seraient un peu plus proches de ce à quoi devrait ressembler le réseau formé, mais cela pourrait aussi être l'exact opposé de ce qu'il devrait être, tandis que 0,5 ou une autre moyenne pour la plage de poids raisonnable la valeur sonnerait comme un bon réglage par défaut ...

Pourquoi les poids initiaux pour les neurones sont-ils randomisés plutôt que 0,5 pour chacun d'eux?

Matas Vaitkevicius
la source
Quel était le problème avec ma modification? Pensez-vous que vous ne pouvez pas être amélioré?
nbro
@nbro ajoute plusieurs questions, ce qui le rend trop large ...
Matas Vaitkevicius
Quelles questions ai-je ajoutées qui ne sont pas présentes dans votre message? Je viens de reformuler sous forme de questions ce que vous avez déclaré comme hypothèses.
nbro
Soit dit en passant, votre formulation n'est même pas correcte. Les poids ne sont pas randomisés, mais ils sont initialisés de manière aléatoire. Ce sont deux concepts différents et vous vouliez dire le second. Ma modification visait également à améliorer la formulation.
nbro
@nbro Salut, regardez, je n'étais pas méchant et je ne voulais certainement pas vous offenser. Je suis mal à poser des questions aussi, le libellé et tout. Je suis donc désolé si je vous ai offensé.
Matas Vaitkevicius

Réponses:

6

Les poids initiaux dans un réseau de neurones sont initialisés de manière aléatoire car les méthodes basées sur le gradient couramment utilisées pour former les réseaux de neurones ne fonctionnent pas bien lorsque tous les poids sont initialisés à la même valeur. Bien que toutes les méthodes pour former les réseaux de neurones ne soient pas basées sur un gradient, la plupart d'entre elles le sont, et il a été démontré dans plusieurs cas que l'initialisation du réseau de neurones à la même valeur rend le réseau plus long à converger vers une solution optimale. De plus, si vous souhaitez recycler votre réseau de neurones parce qu'il s'est coincé dans un minimum local, il restera coincé dans le même minimum local. Pour les raisons ci-dessus, nous ne fixons pas les poids initiaux à une valeur constante.

Références: Pourquoi la rétropropagation ne fonctionne-t-elle pas lorsque vous initialisez les poids à la même valeur?

Aiden Grossman
la source
En fait, ils se décomposent si tous les poids sont identiques.
Quonux
9

Vous ne devriez pas attribuer tout à 0,5 car vous auriez le problème de "rupture de symétrie".

http://www.deeplearningbook.org/contents/optimization.html

La seule propriété connue avec certitude est peut-être que les paramètres initiaux doivent « rompre la symétrie » entre les différentes unités. Si deux unités cachées avec la même fonction d'activation sont connectées aux mêmes entrées, ces unités doivent avoir des paramètres initiaux différents. S'ils ont les mêmes paramètres initiaux, un algorithme d'apprentissage déterministe appliqué à un modèle et à un coût déterministes mettra constamment à jour ces deux unités de la même manière. Même si le modèle ou l'algorithme d'apprentissage est capable d'utiliser la stochasticité pour calculer différentes mises à jour pour différentes unités (par exemple, si l'on s'entraîne avec abandon), il est généralement préférable d'initialiser chaque unité pour calculer une fonction différente de toutes les autres unités. Cela peut aider à garantir qu'aucun motif d'entrée n'est perdu dans l'espace nul de propagation vers l'avant et aucun motif de gradient n'est perdu dans l'espace nul de rétro-propagation.

Bonjour le monde
la source
2

C'est une question très profonde. Il y a eu récemment une série d'articles avec une preuve de convergence de la descente de gradient pour un réseau profond surparamétrisé (par exemple, Gradient Descent Finds Global Minima of Deep Neural Networks , A Convergence Theory for Deep Learning via Over-Parameterization ou Stochastic Gradient Descent Optimizes Optimized Over-parameterized Deep Réseaux ReLU ). Tous conditionnent la preuve à la distribution gaussienne aléatoire des poids. Son importance pour les épreuves dépend de deux facteurs:

  1. Les poids aléatoires rendent la cartographie statistiquement compressive de ReLU (jusqu'à la transformation linéaire)

  2. Les poids aléatoires préservent la séparation des entrées pour toute distribution d'entrée - c'est-à-dire que si les échantillons d'entrée sont distinguables, la propagation sur le réseau ne les rendra pas indiscernables

Ces propriétés très difficiles à reproduire avec des matrices déterministes, et même si elles sont reproductibles avec des matrices déterministes, l'espace NULL (domaine des exemples contradictoires) rendrait probablement la méthode impraticable, et une préservation plus importante de ces propriétés pendant la descente du gradient rendrait probablement la méthode impraticable. Mais dans l'ensemble, c'est très difficile mais pas impossible, et cela peut justifier des recherches dans ce sens. Dans une situation analogue, il y a eu quelques résultats pour la propriété d'isométrie restreinte pour les matrices déterministes dans la détection compressée .

mirror2image
la source