Ici, la réponse se réfère à des gradients de fuite et d'explosion qui ont été sigmoid
des fonctions d'activation similaires, mais, je suppose, Relu
ont un inconvénient et c'est sa valeur attendue. il n'y a pas de limitation pour la sortie du Relu
et donc sa valeur attendue n'est pas nulle. Je me souviens du temps avant que la popularité de Relu
ce tanh
n'était le plus populaire parmi les experts en apprentissage automatique sigmoid
. La raison en était que la valeur attendue de la tanh
était égale à zéro et qu'elle aidait l'apprentissage dans les couches plus profondes à être plus rapide dans un réseau neuronal. Relu
n'a pas cette caractéristique, mais pourquoi cela fonctionne si bien si nous mettons de côté son avantage dérivé. De plus, je suppose que le dérivé peut également être affecté. Parce que les activations (sortie deRelu
) participent au calcul des règles de mise à jour.
17
CNN
normalisation typique, la sortie durelu
n'est pas courante? Au moins, je n'ai jamais vu ça.Réponses:
Le plus grand avantage de ReLu est en effet la non saturation de son gradient, ce qui accélère considérablement la convergence de la descente du gradient stochastique par rapport aux fonctions sigmoïde / tanh ( article de Krizhevsky et al).
Mais ce n'est pas le seul avantage. Voici une discussion sur les effets de rareté des activations ReLu et la régularisation induite. Une autre propriété intéressante est que, par rapport aux neurones tanh / sigmoïdes qui impliquent des opérations coûteuses (exponentielles, etc.), le ReLU peut être implémenté en seuillant simplement une matrice d'activations à zéro.
Mais je ne suis pas convaincu que le grand succès des réseaux de neurones modernes soit dû à ReLu seul . De nouvelles techniques d'initialisation, telles que l'initialisation de Xavier, le décrochage et (plus tard) batchnorm ont également joué un rôle très important. Par exemple, le célèbre AlexNet a utilisé ReLu et abandon.
Donc, pour répondre à votre question: ReLu a de très belles propriétés, mais pas idéales . Mais il fait vraiment ses preuves lorsqu'il est combiné avec d'autres excellentes techniques, qui par ailleurs résolvent le problème du centre non nul que vous avez mentionné.
UPD: La sortie ReLu n'est pas vraiment centrée sur zéro et cela nuit aux performances NN. Mais ce problème particulier peut être résolu par d'autres techniques de régularisation, par exemple batchnorm, qui normalise le signal avant l'activation :
la source