Quels sont les avantages d'utiliser ReLU sur softplus comme fonctions d'activation?

21

Il est souvent mentionné que les unités linéaires rectifiées (ReLU) ont remplacé les unités softplus car elles sont linéaires et plus rapides à calculer.

Le softplus a-t-il toujours l'avantage d'induire la rareté ou est-ce limité au ReLU?

La raison pour laquelle je pose la question est que je m'interroge sur les conséquences négatives de la pente nulle du ReLU. Cette propriété ne «piège»-t-elle pas les unités à zéro où il pourrait être avantageux de leur donner la possibilité de se réactiver?

brockl33
la source
avez-vous déjà trouvé la réponse à cela?
Charlie Parker

Réponses:

4

J'ai trouvé une réponse à votre question dans la section 6.3.3 du livre Deep Learning . (Goodfellow et al., 2016):

L'utilisation de softplus est généralement déconseillée. ... on pourrait s'attendre à ce qu'il ait un avantage sur le redresseur en raison de sa différenciation partout ou de sa saturation moins complète, mais empiriquement non.

Comme référence pour étayer cette affirmation, ils citent l'article Deep Sparse Rectifier Neural Networks (Glorot et al., 2011).

Alexander Shchur
la source
1
Je pense que nous avons besoin de plus de clarifications sur "mais empiriquement non.".
nbre
2

Les ReLU peuvent en effet être désactivés de manière permanente, en particulier en cas de taux d'apprentissage élevés. C'est une motivation derrière les activations ReLU et ELU qui fuient, qui ont toutes deux un gradient non nul presque partout.

Leaky ReLU est une fonction linéaire par morceaux, tout comme pour ReLU, donc rapide à calculer. ELU a l'avantage sur softmax et ReLU que sa sortie moyenne est plus proche de zéro, ce qui améliore l'apprentissage.

Hugh Perkins
la source
Que signifie «presque partout»?
nbre
1
"presque partout" est un terme technique qui signifie quelque chose comme "sauf à quelques points infiniment petits". Par exemple, ReLU qui fuit n'a pas de gradient défini à x = 0.
Hugh Perkins