La normalisation des lots et les ReLU sont tous deux des solutions au problème du gradient de fuite. Si nous utilisons la normalisation par lots, devrions-nous alors utiliser des sigmoïdes? Ou existe-t-il des fonctionnalités des ReLU qui en valent la peine, même lorsque vous utilisez batchnorm?
Je suppose que la normalisation effectuée dans batchnorm enverra zéro activations négatives. Cela signifie-t-il que batchnorm résout le problème "ReLU mort"?
Mais la nature continue du tanh et de la logistique reste attrayante. Si j'utilise batchnorm, est-ce que tanh fonctionnera mieux que ReLU?
Je suis sûr que la réponse dépend . Alors, qu'est-ce qui a fonctionné dans votre expérience et quelles sont les principales caractéristiques de votre application?
la source
Réponses:
Voir, le concept de base derrière la normalisation par lots est que (extrait d'un article Medium) -
Lisez l'article ici.
la source
Madman a répondu correctement à votre question concernant la normalisation des lots et permettez-moi de répondre à votre deuxième partie selon laquelle les fonctions continues peuvent sembler attrayantes mais relu est mieux que toutes et cette déclaration n'est pas de mon côté. Hinton l'a cité "nous étions des gens stupides qui utilisaient sigmoïde comme fonction d'activation et il a fallu 30 ans pour que cette réalisation se produise que sans comprendre sa forme, il ne laisserait jamais votre neurone en état d'apprentissage, il est toujours saturant, alors est-ce que c'est un dérivé et il s'est appelé lui-même et toutes les autres personnes abasourdies ". Donc, choisir une fonction d'activation simplement parce qu'elle est continue et ne regarde pas comment cela va affecter votre neurone
Remarque: Si vous étudiez les réseaux de neurones, je vous conseillerais de penser les réseaux de neurones comme des fonctions composites grandes et profondes afin de comprendre ce qui fonctionne et pourquoi cela fonctionne, vous devez comprendre comment un réseau de neurones crée une multitude de données dans une dimension supérieure "représentant "ces données dans lesquelles la qualité de la variété dépend de votre choix de fonctions et de la façon dont une fonction transforme les autres fonctions en sortie lorsqu'elle lui est donnée en entrée.
la source