Un réseau de neurones conçu de manière optimale ne contient-il aucun neurone ReLU «mort» lorsqu'il est formé?

8

En général, dois-je recycler mon réseau de neurones avec moins de neurones afin qu'il ait moins de neurones ReLU morts? J'ai lu des opinions contradictoires sur les ReLU morts. Certaines sources affirment que les ReLU morts sont bons car ils encouragent la rareté. D'autres disent qu'ils sont mauvais parce que les ReLU morts sont morts pour toujours et empêchent l'apprentissage. Y at-il un milieu heureux?

Ryan Zotti
la source

Réponses:

7

Il y a une différence entre les ReLU morts et les ReLU qui sont silencieux sur de nombreuses entrées, mais pas toutes. Les ReLU morts doivent être évités, tandis que les ReLU principalement silencieux peuvent être utiles en raison de la rareté qu'ils induisent.

Les Dead ReLU sont entrés dans un régime de paramètres où ils sont toujours dans le domaine négatif de la fonction d'activation. Cela peut se produire, par exemple, si le biais est défini sur une grande valeur négative. Étant donné que la fonction d'activation est nulle pour les valeurs négatives, ces unités sont silencieuses pour toutes les entrées. Lorsqu'un ReLU est silencieux, le gradient de la fonction de perte par rapport aux paramètres est nul, donc aucune mise à jour des paramètres ne se produira avec l'apprentissage basé sur le gradient. Parce que les ReLU morts sont silencieux pour toutes les entrées, ils sont piégés dans ce régime.

Comparez cela avec une ReLU silencieuse sur de nombreuses entrées, mais pas toutes. Dans ce cas, le gradient est toujours nul lorsque l'unité est silencieuse. Si nous utilisons une procédure d'apprentissage en ligne comme un mini-lot / descente de gradient stochastique, aucune mise à jour des paramètres ne se produira pour les entrées qui font que l'unité est silencieuse. Mais, des mises à jour sont toujours possibles pour d'autres entrées, où l'unité est active et le gradient n'est pas nul.

Parce que les ReLU morts sont silencieux pour toutes les entrées, ils ne contribuent en rien au réseau et sont gaspillés. Du point de vue de la théorie de l'information, toute unité qui a la même valeur de sortie pour toutes les entrées (zéro ou non) ne porte aucune information sur l'entrée. Les ReLU généralement silencieux se comportent différemment pour différentes entrées et conservent donc la capacité de transporter des informations utiles.

user20160
la source