Qu'est-ce que l'activation GELU?
Je parcourais le papier BERT qui utilise GELU (Gaussian Error Linear Unit) qui énonce l'équation comme qui à son tour est approximativement àG EL U( x ) = x P( X≤ x ) = x Φ ( x ) .gELU(X)=XP(X≤X)=XΦ(X). GELU(x) = xP(X ≤ x) =