Je m'excuse à l'avance pour le fait que j'arrive toujours à ce sujet. J'essaie de comprendre les avantages et les inconvénients de l'utilisation de tanh (carte -1 à 1) par rapport à sigmoïde (carte 0 à 1) pour ma fonction d'activation des neurones. D'après ma lecture, cela ressemblait à une chose mineure avec des différences marginales. Dans la pratique pour mes problèmes, je trouve que le sigmoïde est plus facile à entraîner et étrangement, le sigmoïde semble mieux trouver une solution générale. J'entends par là que lorsque la version sigmoïde est terminée, elle fonctionne bien sur l'ensemble de données de référence (non formé), où la version tanh semble être en mesure d'obtenir les bonnes réponses sur les données de formation tout en faisant mal sur la référence. C'est pour la même architecture de réseau.
Une intuition que j'ai est qu'avec le sigmoïde, il est plus facile pour un neurone de s'éteindre presque complètement, ne fournissant ainsi aucune entrée aux couches suivantes. Le tanh a plus de mal ici car il doit annuler parfaitement ses entrées, sinon il donne toujours une valeur à la couche suivante. Peut-être que cette intuition est fausse.
Long courrier. En fin de compte, quel est le métier, et cela devrait-il faire une grande différence?
la source
Ces deux fonctions d'activation sont très similaires, mais sont décalées. Mon réseau d'origine n'avait pas de termes biaisés. Depuis l'ajout de biais, tout est beaucoup plus stable. D'après mon expérience, je dirais que l'un ou l'autre de ces éléments peut mieux fonctionner pour une application spécifique pour des raisons complexes, peut-être inconnaissables, mais la bonne approche consiste à inclure des termes de biais afin que la dépendance à l'égard du décalage d'activation puisse être diminuée ou éliminée.
la source
oùyje est la valeur cible pour l'échantillon je et pje est la sortie du réseau pour l'échantillon je .
Sipje est la sortie d'un tanh fonction vous finissez par prendre des logarithmes de valeurs négatives. Les fonctions d'activation sigmoïde à la sortie sont donc un meilleur choix pour ces cas.
la source