Normalisation d'entrée pour les neurones ReLU

9

Selon "Efficient Backprop" de LeCun et al (1998), il est de bonne pratique de normaliser toutes les entrées afin qu'elles soient centrées autour de 0 et se situent dans la plage de la dérivée seconde maximale. Ainsi, par exemple, nous utiliserions [-0,5,0,5] pour la fonction "Tanh". C'est pour aider la progression de la rétropropagation à mesure que la Hesse devient plus stable.

Cependant, je ne savais pas quoi faire avec les neurones Rectifier qui sont max (0, x). (Toujours avec la fonction logistique depuis lors, nous voudrions quelque chose comme [0.1,0.9] mais qui n'est pas centré sur 0)

mptevsion
la source

Réponses:

7

À ma connaissance, la chose la plus proche de ce que vous cherchez peut-être est cet article récent des chercheurs de Google: Normalisation des lots: accélération de la formation en réseau profond en réduisant le décalage de covariation interne .

Normalisation des lots

lyl=F(WX+b)FW,bX

La normalisation des lots (BN) est la suivante:

  1. WX+bX^X^WX+b
  2. X^γX^+β.
  3. y^l=F(γX^+β)

Donc, BN standardise les sorties d'activation "brutes" (lire: avant d'appliquer la non-linéarité) pour avoir une moyenne nulle, la variance 1, puis nous appliquons une transformation affine apprise, et enfin nous appliquons la non-linéarité. Dans un certain sens, nous pouvons interpréter cela comme permettant au réseau neuronal d'apprendre une distribution d'entrée paramétrée appropriée à la non-linéarité.

γ,β

Motivation de la transformation affine

βγ

Standardiser d'abord

γ,β, ils ont en effet appris une transformation où ils ont utilisé la transformation d'identité comme référence ou référence pour la comparaison. Les co-auteurs de Microsoft pensaient que le fait d'avoir cette référence ou base de référence avait aidé à préconditionner le problème. Je ne pense pas qu'il soit trop farfelu de se demander si quelque chose de similaire se produit ici avec BN et l'étape de normalisation initiale.

Applications BN

Un résultat particulièrement intéressant est qu'en utilisant la normalisation par lots, l'équipe de Google a pu obtenir un réseau tanh Inception pour se former sur ImageNet et obtenir des résultats assez compétitifs. Tanh est une non-linéarité saturante et il a été difficile d'obtenir ces types de réseaux à apprendre en raison de leur problème de gradients de saturation / disparition. Cependant, en utilisant la normalisation par lots, on peut supposer que le réseau a pu apprendre une transformation qui mappe les valeurs de sortie d'activation dans le régime non saturant des non-linéarités tanh.

Notes finales

Ils font même référence au même factoïde Yann LeCun que vous avez mentionné comme motivation pour la normalisation par lots.

Indie AI
la source