Quelle est la différence entre LeakyReLU et PReLU?

42

Je pensais que les deux, PReLU et Leaky ReLU sont

f(x)=max(x,αx) with α(0,1)

Keras, cependant, a les deux fonctions dans la documentation .

Leaky ReLU

Source de LeakyReLU :

return K.relu(inputs, alpha=self.alpha)

D'où (voir code relu )

f1(x)=max(0,x)αmax(0,x)

PReLU

Source de PReLU :

def call(self, inputs, mask=None):
    pos = K.relu(inputs)
    if K.backend() == 'theano':
        neg = (K.pattern_broadcast(self.alpha, self.param_broadcast) *
               (inputs - K.abs(inputs)) * 0.5)
    else:
        neg = -self.alpha * K.relu(-inputs)
    return pos + neg

D'où

f2(x)=max(0,x)αmax(0,x)

Question

Ai-je eu quelque chose de mal? f1 et f_2 ne sont-ils pas f2équivalents à f (en supposant que α(0,1) ?)

Martin Thoma
la source

Réponses:

50

Directement de wikipedia :

entrez la description de l'image ici

  • Leaky ReLU s permet un petit gradient non nul lorsque l’unité n’est pas active.

  • Les paramètres paramétriques ReLU vont plus loin dans cette idée en transformant le coefficient de fuite en paramètre paramétré avec les autres paramètres du réseau neuronal.

Thomas W
la source
3
Ah, merci, j'oublie toujours que Leaky ReLUs a comme hyperparamètre et Parametric ReLUs a comme paramètre. ααα
Martin Thoma
1
Pour le truc de Google: ça va . (Au fait, cette question est pour moi le troisième résultat maintenant pour "Leaky ReLU vs PReLU")
Martin Thoma
3
@ MartinThoma vrai! Aucune infraction du tout pour cela! La façon dont j'ai trouvé la réponse était assez stupide également; Je ne savais pas ce que le "P" était dans PReLU, alors j'ai compris cela et j'ai ensuite essayé de comprendre ce que était PReLU en tapant simplement "Parametric ReLU", ce qui m'a conduit à la page wikipedia. J'ai appris quelque chose aujourd'hui à cause de votre question;)
Thomas W
1
Agréable. C'est comme ça que ça devrait être :-) Dans ce cas, ma petite vue d'ensemble de la fonction d'activation pourrait aussi vous intéresser. L'article est (partiellement) en allemand, mais je suppose que pour cette partie, cela ne devrait pas avoir d'importance
Martin Thoma