Il est souvent mentionné que les unités linéaires rectifiées (ReLU) ont remplacé les unités softplus car elles sont linéaires et plus rapides à calculer.
Le softplus a-t-il toujours l'avantage d'induire la rareté ou est-ce limité au ReLU?
La raison pour laquelle je pose la question est que je m'interroge sur les conséquences négatives de la pente nulle du ReLU. Cette propriété ne «piège»-t-elle pas les unités à zéro où il pourrait être avantageux de leur donner la possibilité de se réactiver?
machine-learning
neural-networks
brockl33
la source
la source
Réponses:
J'ai trouvé une réponse à votre question dans la section 6.3.3 du livre Deep Learning . (Goodfellow et al., 2016):
Comme référence pour étayer cette affirmation, ils citent l'article Deep Sparse Rectifier Neural Networks (Glorot et al., 2011).
la source
Les ReLU peuvent en effet être désactivés de manière permanente, en particulier en cas de taux d'apprentissage élevés. C'est une motivation derrière les activations ReLU et ELU qui fuient, qui ont toutes deux un gradient non nul presque partout.
Leaky ReLU est une fonction linéaire par morceaux, tout comme pour ReLU, donc rapide à calculer. ELU a l'avantage sur softmax et ReLU que sa sortie moyenne est plus proche de zéro, ce qui améliore l'apprentissage.
la source