Pas de terme de régularisation pour l'unité de biais dans le réseau neuronal

14

Selon ce tutoriel sur l'apprentissage en profondeur , la décroissance du poids (régularisation) n'est généralement pas appliquée aux termes de biais b pourquoi?

Quelle est la signification (l'intuition) derrière cela?

Harshit
la source
Je pense avoir déjà vu une question très similaire, je ne la trouve tout simplement pas ... Peut-être devriez-vous revoir les questions connexes et trouver alors la réponse. En outre, cela pourrait peut-être être quelque peu utile.
Richard Hardy

Réponses:

14

Le surajustement nécessite généralement que la sortie du modèle soit sensible aux petits changements dans les données d'entrée (c'est-à-dire que pour interpoler exactement les valeurs cibles, vous avez tendance à avoir besoin de beaucoup de courbure dans la fonction ajustée). Les paramètres de biais ne contribuent pas à la courbure du modèle, il est donc généralement inutile de les régulariser également.

Dikran Marsupial
la source
5

La motivation derrière L2 (ou L1) est qu'en restreignant les pondérations, en contraignant le réseau, vous êtes moins susceptible de surcharger. Il est peu logique de restreindre les poids des biais car les biais sont fixes (par exemple b = 1) fonctionnent donc comme des interceptions de neurones, qui ont du sens pour avoir une plus grande flexibilité.

Ramalho
la source
1

J'ajouterais que le terme de biais est souvent initialisé avec une moyenne de 1plutôt que de 0, donc nous pourrions vouloir le régulariser de manière à ne pas trop s'éloigner d'une valeur constante 1comme faire 1/2*(bias-1)^2plutôt que 1/2*(bias)^2.

Peut-être que le remplacement de la -1pièce par une soustraction à la moyenne des biais pourrait aider, peut-être une moyenne par couche ou une moyenne globale. Pourtant, ce n'est qu'une hypothèse que je fais (sur la soustraction moyenne).

Tout cela dépend aussi de la fonction d'activation. Par exemple: les sigmoïdes peuvent être mauvais ici pour les gradients disparaissants si les biais sont régularisés en décalages constants élevés.

Guillaume Chevalier
la source
0

Le didacticiel indique que "l'application de la décroissance du poids aux unités de biais ne fait généralement qu'une petite différence pour le réseau final", donc si cela n'aide pas, vous pouvez arrêter de le faire pour éliminer un hyperparamètre. Si vous pensez que la régularisation du décalage vous aiderait dans votre configuration, alors validez-la de manière croisée; il n'y a aucun mal à essayer.

Emre
la source