La normalisation par lots signifie-t-elle que les sigmoids fonctionnent mieux que les ReLU?

9

La normalisation des lots et les ReLU sont tous deux des solutions au problème du gradient de fuite. Si nous utilisons la normalisation par lots, devrions-nous alors utiliser des sigmoïdes? Ou existe-t-il des fonctionnalités des ReLU qui en valent la peine, même lorsque vous utilisez batchnorm?

Je suppose que la normalisation effectuée dans batchnorm enverra zéro activations négatives. Cela signifie-t-il que batchnorm résout le problème "ReLU mort"?

Mais la nature continue du tanh et de la logistique reste attrayante. Si j'utilise batchnorm, est-ce que tanh fonctionnera mieux que ReLU?

Je suis sûr que la réponse dépend . Alors, qu'est-ce qui a fonctionné dans votre expérience et quelles sont les principales caractéristiques de votre application?

utilisateur_générique
la source
Même si l'article suggère d'utiliser BatchNorm avant l'activation, il a été constaté dans la pratique que de meilleures solutions sont produites si le BN est appliqué après. Si je n'oublie pas quelque chose qui devrait signifier, que dans ce dernier cas, BN n'a aucun effet sur l'activation. Mais bien sûr, c'est une question ouverte, si BN fonctionnerait mieux lorsqu'il est appliqué avant et avec une autre activation que ReLU. À mon avis, non. Parce que ReLU a encore d'autres avantages, comme une dérivation plus simple. Mais je suis aussi curieux. Peut-être que quelqu'un a fait des expériences dans ce domaine.
oezguensi

Réponses:

1

Voir, le concept de base derrière la normalisation par lots est que (extrait d'un article Medium) -

Nous normalisons notre couche d'entrée en ajustant et en mettant à l'échelle les activations. Par exemple, lorsque nous avons des fonctionnalités de 0 à 1 et certaines de 1 à 1000, nous devons les normaliser pour accélérer l'apprentissage. Si la couche d'entrée en profite, pourquoi ne pas faire de même pour les valeurs des couches cachées, qui changent tout le temps, et obtenir 10 fois ou plus d'amélioration de la vitesse d'entraînement.

Lisez l'article ici.

Frunec1/(1+1/e)

Fou
la source
0

Madman a répondu correctement à votre question concernant la normalisation des lots et permettez-moi de répondre à votre deuxième partie selon laquelle les fonctions continues peuvent sembler attrayantes mais relu est mieux que toutes et cette déclaration n'est pas de mon côté. Hinton l'a cité "nous étions des gens stupides qui utilisaient sigmoïde comme fonction d'activation et il a fallu 30 ans pour que cette réalisation se produise que sans comprendre sa forme, il ne laisserait jamais votre neurone en état d'apprentissage, il est toujours saturant, alors est-ce que c'est un dérivé et il s'est appelé lui-même et toutes les autres personnes abasourdies ". Donc, choisir une fonction d'activation simplement parce qu'elle est continue et ne regarde pas comment cela va affecter votre neurone

Remarque: Si vous étudiez les réseaux de neurones, je vous conseillerais de penser les réseaux de neurones comme des fonctions composites grandes et profondes afin de comprendre ce qui fonctionne et pourquoi cela fonctionne, vous devez comprendre comment un réseau de neurones crée une multitude de données dans une dimension supérieure "représentant "ces données dans lesquelles la qualité de la variété dépend de votre choix de fonctions et de la façon dont une fonction transforme les autres fonctions en sortie lorsqu'elle lui est donnée en entrée.

khwaja wisal
la source