La fonction d'activation doit-elle être monotone dans les réseaux de neurones?

8

De nombreuses fonctions d'activation dans les réseaux de neurones (sigmoïde, tanh, softmax) sont monotones, continues et différenciables (à l'exception de quelques points, où la dérivée n'existe pas).

Je comprends la raison de la continuité et de la différentiabilité, mais je ne peux pas vraiment comprendre la raison de la monotonie.

Salvador Dali
la source

Réponses:

8

Au cours de la phase d'entraînement, la rétropropagation informe chaque neurone dans quelle mesure il doit influencer chaque neurone de la couche suivante. Si la fonction d'activation n'est pas monotone, l'augmentation du poids du neurone pourrait lui faire avoir moins d'influence, contrairement à ce qui était prévu. Il en résulterait un comportement de choix au cours de la formation, le réseau ne pouvant pas converger vers un état produisant un classificateur précis.

Kyle Jones
la source
1
Juste pour clarifier: la descente en gradient trouve un minimum local même avec des fonctions d'activation monotones. Cela pourrait prendre plus de temps.
Martin Thoma