Voici quelque chose que j'ai lu dans le livre Deep Learning d' Ian Goodfellow .
Dans le contexte des réseaux de neurones, "la pénalité de la norme du paramètre L2 est communément appelée décroissance du poids. Cette stratégie de régularisation rapproche les poids de l'origine [...]. Plus généralement, nous pourrions régulariser les paramètres pour qu'ils soient proches de tout point spécifique dans l'espace "mais il est beaucoup plus courant de régulariser les paramètres du modèle vers zéro. (Deep Learning, Goodfellow et al.)
Je suis juste curieux. Je comprends qu'en ajoutant simplement un terme de régularisation à notre fonction de coût, et qu'en minimisant ce coût total nous pouvons influencer les paramètres du modèle pour qu'ils restent petits:
Mais comment mettre en œuvre une version de cette stratégie de régularisation qui conduirait les paramètres vers n'importe quel point arbitraire? (disons que nous voulons que la norme tende vers 5)
DéfinissezNous savons que , en raison de la pénalité ayant l'origine comme minimiseur.lim λ → ∞
Sycorax souligne que, de même,Cette généralisation réussie peut nous conduire à proposer l'estimateur où est une fonction dont le minimiseur satisfait une propriété que nous recherchons. En effet, Sycorax prend , où est (uniquement) minimisé à l'origine, et notamment . Par conséquent, , comme vous le souhaitez. Malheureusement, cependant, les deux choix de˜ w λ = arg min w L ( w ) = g (limλ → ∞{ argminwL ( Θ , X, y) + λ ∥ w - c ∥22} =c. p e n p e n (
L'analyse ci-dessus semble être la meilleure solution (peut-être jusqu'au choix de , pour lequel je n'ai pas de meilleur à suggérer) si nous insistons sur comme étant l'interprétation unique de "tend à" décrite dans la question. Cependant, en supposant que , il existe certains sorte que le minimiseur du problème satsifes OP . Par conséquent sans avoir besoin de changer la fonction objectif. Si aucun de ces n'existe, alors le problème de l'informatiqueg λ → ∞ ∥ argminwL ( Θ , X, y) ∥22≥ 5 Λ w^Λ ∥ w^Λ∥22= 5
(Pour imposer qu'un estimateur pénalisé atteigne une valeur de la pénalité qui n'est pas atteinte par l'estimateur non pénalisé me semble très contre nature. Si quelqu'un est au courant d'endroits où cela est en fait souhaité, veuillez commenter!)
la source
Pour approprié, il est possible de le considérer comme log-vraisemblance négative et une régularisation appropriée peut être considérée comme log-vraisemblance négative pour une distribution antérieure. Cette approche est appelée Maximum A Posteriori (MAP).L J
Il devrait être facile de voir les exemples de Sycorax à la lumière de MAP.
Pour plus de détails sur MAP, vous pouvez consulter ces notes . D'après mon expérience, googler «régularisation maximale a posteriori» donne de bons résultats.
la source