Comment implémenter la régularisation L2 vers un point arbitraire dans l'espace?

11

Voici quelque chose que j'ai lu dans le livre Deep Learning d' Ian Goodfellow .

Dans le contexte des réseaux de neurones, "la pénalité de la norme du paramètre L2 est communément appelée décroissance du poids. Cette stratégie de régularisation rapproche les poids de l'origine [...]. Plus généralement, nous pourrions régulariser les paramètres pour qu'ils soient proches de tout point spécifique dans l'espace "mais il est beaucoup plus courant de régulariser les paramètres du modèle vers zéro. (Deep Learning, Goodfellow et al.)

Je suis juste curieux. Je comprends qu'en ajoutant simplement un terme de régularisation à notre fonction de coût, et qu'en minimisant ce coût total nous pouvons influencer les paramètres du modèle pour qu'ils restent petits:J

J(Θ,X,y)=L(Θ,X,y)+λ||w||22

Mais comment mettre en œuvre une version de cette stratégie de régularisation qui conduirait les paramètres vers n'importe quel point arbitraire? (disons que nous voulons que la norme tende vers 5)

Julep
la source

Réponses:

14

Vous posez en fait deux questions différentes.

  1. Avoir la norme a tendance à 5 implique que vous voulez que les poids soient près de la surface d'une hypersphère centrée à l'origine avec un rayon 5. Cette régularisation ressemble à quelque chose comme

J(Θ,X,y)=L(Θ,X,y)+λ(||w||22-5)2

Mais vous pourriez utiliser à la place quelque chose comme λabdos(||w||22-5) , je suppose.

  1. D'un autre côté, si vous voulez tendre vers un point arbitraire, il vous suffit d'utiliser ce point comme centre c .

J(Θ,X,y)=L(Θ,X,y)+λ||w-c||22
Sycorax dit de réintégrer Monica
la source
(+1) Je pense qu'une façon fructueuse de penser à la "norme tendant à cinq" pourrait être par le choix du paramètre de réglage dans la version de donnée par OP (plutôt que de changer la fonction)J
user795305
(J'ai écrit une réponse courte pour clarifier ce que je veux dire par dessus. Merci, en passant, d'avoir clarifié la distinction des deux questions posées!)
user795305
un objectif commun (pratique) lors de cette opération est de se régulariser vers un point de fonctionnement connu, par exemple le modèle précédent que vous souhaitez remplacer mais pour lequel vous souhaitez une transition "en douceur"
oDDsKooL
6

DéfinissezNous savons que , en raison de la pénalité ayant l'origine comme minimiseur.lim λ

w^λ=argminwL(Θ,X,y)+λw22.
ww 2 2limλw^λ=0ww22

Sycorax souligne que, de même,Cette généralisation réussie peut nous conduire à proposer l'estimateur où est une fonction dont le minimiseur satisfait une propriété que nous recherchons. En effet, Sycorax prend , où est (uniquement) minimisé à l'origine, et notamment . Par conséquent, , comme vous le souhaitez. Malheureusement, cependant, les deux choix de˜ w λ = arg min w L ( w ) = g (limλ{argminwL(Θ,X,y)+λw-c22}=c.p e n p e n (

w~λ=argminwL(Θ,X,y)+λpen(w),
penpen(w)=g(w22-5)glim λ g{||,()2}limλw~λ22=5gentraîner des pénalités non convexes, ce qui rend l'estimateur difficile à calculer.

L'analyse ci-dessus semble être la meilleure solution (peut-être jusqu'au choix de , pour lequel je n'ai pas de meilleur à suggérer) si nous insistons sur comme étant l'interprétation unique de "tend à" décrite dans la question. Cependant, en supposant que , il existe certains sorte que le minimiseur du problème satsifes OP . Par conséquent sans avoir besoin de changer la fonction objectif. Si aucun de ces n'existe, alors le problème de l'informatiquegλargminwL(Θ,X,y)225Λw^Λw^Λ22=5

limλΛw^λ22=5,
Λargminw:w22=5L(Θ,X,y) est intrinsèquement difficile. En effet, il n'est pas nécessaire de considérer un estimateur autre que lorsque vous essayez d'encourager les propriétés naturelles de .w^λw^λ22

(Pour imposer qu'un estimateur pénalisé atteigne une valeur de la pénalité qui n'est pas atteinte par l'estimateur non pénalisé me semble très contre nature. Si quelqu'un est au courant d'endroits où cela est en fait souhaité, veuillez commenter!)

user795305
la source
1
Il s'agit d'un excellent ajout. +1
Sycorax dit de réintégrer Monica
2

Pour approprié, il est possible de le considérer comme log-vraisemblance négative et une régularisation appropriée peut être considérée comme log-vraisemblance négative pour une distribution antérieure. Cette approche est appelée Maximum A Posteriori (MAP).LJ

Il devrait être facile de voir les exemples de Sycorax à la lumière de MAP.

Pour plus de détails sur MAP, vous pouvez consulter ces notes . D'après mon expérience, googler «régularisation maximale a posteriori» donne de bons résultats.

Jakub Bartczuk
la source