Selon ce tutoriel sur l'apprentissage en profondeur , la décroissance du poids (régularisation) n'est généralement pas appliquée aux termes de biais b pourquoi?
Quelle est la signification (l'intuition) derrière cela?
Selon ce tutoriel sur l'apprentissage en profondeur , la décroissance du poids (régularisation) n'est généralement pas appliquée aux termes de biais b pourquoi?
Quelle est la signification (l'intuition) derrière cela?
Réponses:
Le surajustement nécessite généralement que la sortie du modèle soit sensible aux petits changements dans les données d'entrée (c'est-à-dire que pour interpoler exactement les valeurs cibles, vous avez tendance à avoir besoin de beaucoup de courbure dans la fonction ajustée). Les paramètres de biais ne contribuent pas à la courbure du modèle, il est donc généralement inutile de les régulariser également.
la source
La motivation derrière L2 (ou L1) est qu'en restreignant les pondérations, en contraignant le réseau, vous êtes moins susceptible de surcharger. Il est peu logique de restreindre les poids des biais car les biais sont fixes (par exemple b = 1) fonctionnent donc comme des interceptions de neurones, qui ont du sens pour avoir une plus grande flexibilité.
la source
J'ajouterais que le terme de biais est souvent initialisé avec une moyenne de
1
plutôt que de0
, donc nous pourrions vouloir le régulariser de manière à ne pas trop s'éloigner d'une valeur constante1
comme faire1/2*(bias-1)^2
plutôt que1/2*(bias)^2
.Peut-être que le remplacement de la
-1
pièce par une soustraction à la moyenne des biais pourrait aider, peut-être une moyenne par couche ou une moyenne globale. Pourtant, ce n'est qu'une hypothèse que je fais (sur la soustraction moyenne).Tout cela dépend aussi de la fonction d'activation. Par exemple: les sigmoïdes peuvent être mauvais ici pour les gradients disparaissants si les biais sont régularisés en décalages constants élevés.
la source
Le didacticiel indique que "l'application de la décroissance du poids aux unités de biais ne fait généralement qu'une petite différence pour le réseau final", donc si cela n'aide pas, vous pouvez arrêter de le faire pour éliminer un hyperparamètre. Si vous pensez que la régularisation du décalage vous aiderait dans votre configuration, alors validez-la de manière croisée; il n'y a aucun mal à essayer.
la source