À ma connaissance, la chose la plus proche de ce que vous cherchez peut-être est cet article récent des chercheurs de Google: Normalisation des lots: accélération de la formation en réseau profond en réduisant le décalage de covariation interne .
Normalisation des lots
lyl= f( Wx + b )FW, bX
La normalisation des lots (BN) est la suivante:
- Wx + bX^X^Wx + b
- X^→ γX^+ β.
- y^l= f( γX^+ β)
Donc, BN standardise les sorties d'activation "brutes" (lire: avant d'appliquer la non-linéarité) pour avoir une moyenne nulle, la variance 1, puis nous appliquons une transformation affine apprise, et enfin nous appliquons la non-linéarité. Dans un certain sens, nous pouvons interpréter cela comme permettant au réseau neuronal d'apprendre une distribution d'entrée paramétrée appropriée à la non-linéarité.
γ, β
Motivation de la transformation affine
βγ
Standardiser d'abord
γ, β, ils ont en effet appris une transformation où ils ont utilisé la transformation d'identité comme référence ou référence pour la comparaison. Les co-auteurs de Microsoft pensaient que le fait d'avoir cette référence ou base de référence avait aidé à préconditionner le problème. Je ne pense pas qu'il soit trop farfelu de se demander si quelque chose de similaire se produit ici avec BN et l'étape de normalisation initiale.
Applications BN
Un résultat particulièrement intéressant est qu'en utilisant la normalisation par lots, l'équipe de Google a pu obtenir un réseau tanh Inception pour se former sur ImageNet et obtenir des résultats assez compétitifs. Tanh est une non-linéarité saturante et il a été difficile d'obtenir ces types de réseaux à apprendre en raison de leur problème de gradients de saturation / disparition. Cependant, en utilisant la normalisation par lots, on peut supposer que le réseau a pu apprendre une transformation qui mappe les valeurs de sortie d'activation dans le régime non saturant des non-linéarités tanh.
Notes finales
Ils font même référence au même factoïde Yann LeCun que vous avez mentionné comme motivation pour la normalisation par lots.