Deux fonctions d'activation courantes utilisées dans l'apprentissage en profondeur sont la fonction tangente hyperbolique et la fonction d'activation sigmoïde. Je comprends que la tangente hyperbolique est juste une mise à l'échelle et une traduction de la fonction sigmoïde:
.
Existe-t-il une différence significative entre ces deux fonctions d'activation, et en particulier, quand est-ce que l'une est préférable à l'autre ?
Je me rends compte que dans certains cas (comme lors de l’estimation des probabilités), des sorties sont plus pratiques que les sorties allant de . Je veux savoir s'il existe des différences autres que la commodité qui distinguent les deux fonctions d'activation.