Pourquoi le terme de régularisation * ajouté * à la fonction de coût (au lieu de multiplié, etc.)?

51

Chaque fois que la régularisation est utilisée, elle est souvent ajoutée à la fonction de coût, comme dans la fonction de coût suivante.

J(θ)=12(yθXT)(yθXT)T+αθ22
Cela me semble intuitif puisque minimiser le fonction de coût signifie minimiser l'erreur (le terme de gauche) et minimiser les magnitudes des coefficients (le terme de droite) en même temps (ou au moins en équilibrant les deux minimisations).

Ma question est la suivante: pourquoi ce terme de régularisation αθ22 ajouté à la fonction de coût d’origine et ne se multiplie-t-il pas ou autre chose qui garde l’esprit de motivation derrière l’idée de régularisation? Est-ce parce que si nous ajoutons simplement le terme, il est suffisamment simple et nous permet de résoudre ce problème de manière analytique ou existe-t-il une raison plus profonde?

grenmester
la source
1
Un autre argument est via le théorème de représentant,
jkabrg
2
multiplicateur lagrangien
Haitao Du
9
Si vous avez plus de variables indépendantes que d'observations, alors vous pourrez peut-être obtenir 12(yθXT)(yθXT)T jusqu'à zéro de différentes façons, donc multiplier par rien ne sera pas aider à distinguer un modèle utile
Henry

Réponses:

47

Il a une assez bonne intuition dans le cadre bayésien. Considérons que la fonction de coût régularisée J a un rôle similaire à celui de la probabilité d'une configuration de paramètre θ étant donné les observations X,y . En appliquant le théorème de Bayes, on obtient:

P(θ|X,y)=P(X,y|θ)P(θ)P(X,y).

Prendre le journal de l'expression nous donne:

logP(θ|X,y)=logP(X,y|θ)+logP(θ)logP(X,y).

Supposons maintenant que est le 1 log-postérieur négatif , . Comme le dernier terme ne dépend pas de , nous pouvons l'omettre sans changer le minimum. Il vous reste deux termes: 1) le terme de vraisemblance fonction de et , et 2) le terme précédent fonction de uniquement. Ces deux termes correspondent exactement au terme de données et au terme de régularisation de votre formule.J(θ)logP(θ|X,y)θlogP(X,y|θ)XylogP(θ)θ

Vous pouvez aller encore plus loin et montrer que la fonction de perte que vous avez postée correspond exactement au modèle suivant:

P(X,y|θ)=N(y|θX,σ12),
P(θ)=N(θ|0,σ22),

où les paramètres proviennent d'une distribution gaussienne à moyenne nulle et les observations ont un bruit gaussien à moyenne nulle. Pour plus de détails, voir cette réponse .θy


1 Négatif puisque vous souhaitez maximiser la probabilité tout en minimisant les coûts.

Jan Kukacka
la source
5
Je suis un peu insatisfait de cette réponse car cela ne fait que transmettre la correspondance entre la fonction de coût et la valeur logarrière. Si le coût ne correspond pas au log-postérieur mais plutôt au postérieur lui-même, nous conclurons que la régularisation doit être multipliée par le coût non régularisé (comme le PO le demandait). - Pour bien justifier cette réponse, vous devez justifier pourquoi c'est le log-postérieur que nous assimilons au coût. (Vous faites en quelque sorte avec le "aller encore plus loin", mais vous obtenez un peu la main ondulée à ce moment-là.)
RM
1
@RM, point valide. Il y a une raison: c'est parce que les fonctions de perte standard utilisées dans l'apprentissage automatique correspondent au log-postérieur plutôt qu'au postérieur lui-même. Pourquoi? Parce qu'ils utilisent une minimisation empirique du risque; , et les fonctions de perte standard se présentent généralement sous la forme où est une fonction de perte interprétée comme une probabilité log-postérieure. (Je suppose que vous le savez, mais je le dis simplement aux autres visiteurs.)logP(X1,,Xn,y1,,yn|θ)=ilogP(Xi,yi|θ)if(Xi,yi,θi)f
DW
@RM Si vous avez des coûts vous pouvez toujours redéfinir votre problème en termes de . En d’autres termes, quelle que soit votre fonction de coût, elle définit une distribution basée sur divisée par une constante de normalisation que vous pouvez ignorer lors de l’utilisation de méthodes MCMC. Le fait que vous pouvez toujours retraiter en termes d'une exponentielle est très important pour le recuit simulé par exemple, échantillonneurs MCCM, etc.CC=explnCexplnC
ely
@RM, par exemple, considérons cet article de Jun Liu (et il y a un commentaire similaire dans le livre de Liu dans MCMC), où à la page 3, au bas de la page, il est écrit: "Soit soit la distribution de probabilité cible à l'étude (vraisemblablement, tous les fichiers PDF peuvent être écrits sous cette forme) "(non souligné dans l'original). Donc, du point de vue bayésien, où la fonction de perte correspond à la partie de l’a posterior définie par le modèle de vraisemblance, cette décomposition bayésienne pour cette réponse serait tout à fait générale. π(x)=cexph(x)
ely
Merci d'avoir répondu! J'essaie de comprendre le "il" au début de votre message: que prétendez-vous exactement avec une belle intuition dans le cadre bayésien? la raison fondamentale pour laquelle ajouter des pénalités donne de bons estimateurs? ou la raison historique (et non statistique) pour laquelle les gens utilisent ces estimateurs additifs? (Alors que j'essayais de suggérer mon phrasé, je pense que votre réponse traite de la raison historique plutôt que d'une raison statistique.)
user795305
34

Jan et Cagdas donnent une bonne raison bayésienne, interprétant le régularisateur comme un prieur. Voici quelques uns non-bayésiens:

  • Si votre objectif non régularisé est convexe et que vous ajoutez un régularisateur convexe, votre objectif total sera toujours convexe. Ce ne sera pas vrai si vous le multipliez, ou la plupart des autres méthodes de combinaison. L'optimisation convexe est vraiment très agréable comparée à l'optimisation non convexe; Si la formulation convexe fonctionne, il est préférable de le faire.

  • Cela aboutit parfois à une forme fermée très simple, comme on le mentionne pour la régression des crêtes.

  • Si vous pensez au problème que vous "voulez" vraiment résoudre comme un problème avec une contrainte dure son dual de Lagrange est le problème Bien que vous ne devez utiliser la dualité Lagrange, beaucoup est entendu à ce sujet.

    minθ:c(θ)0J(θ),
    minθJ(θ)+λc(θ).
  • Comme ogogmad l’a mentionné , le théorème du représentant s’applique au cas d’une pénalité additive: si vous voulez optimiser sur un noyau de reproduction entier, espace de fonctions , nous savons que la solution à l’optimisation sur tout l’espace se trouve dans un simple sous-espace de dimension finie pour de nombreuses pertes ; Je ne sais pas si cela serait valable pour un régularisateur multiplicatif (bien que cela puisse être le cas). C’est le fondement des SVM du noyau.fH

    minfHJ(f)+λfH2
    J
  • Si vous faites un apprentissage en profondeur ou quelque chose de non convexe, les pertes additives donnent des gradients additifs simples. Pour le simple régularisateur vous avez donné, la perte de poids devient très simple . Mais même pour un régularisateur plus compliqué, par exemple le WGAN-GP perte de il est plus facile pour la rétropropagation de calculer les gradients s’il ne faut tenir compte que de la somme de la perte et du régulariseur compliqué (en considérant les choses séparément), au lieu de devoir faire la règle du produit.L2

    x,yfθ(x)fθ(y)the loss+λE^αUniform(0,1)(fθ(αx+(1α)y)1)2the regularizer,
  • Les pertes additives dépendent également de l' algorithme d'optimisation ADMM , ainsi que d'autres algorithmes basés sur la "décomposition".

Aucune de ces règles n'est stricte , et en fait, parfois, un régularisateur multiplicatif (ou autre) pourrait fonctionner mieux (comme le souligne ogogmad ). (En fait, l’autre jour, j’ai présenté un article sur la façon dont une chose que vous pourriez interpréter comme un régularisateur multiplicatif donne de meilleurs résultats que l’additif WGAN-GP ci-dessus!) Mais nous espérons que cela aide à expliquer pourquoi les régularisateurs additifs sont «par défaut».

Dougal
la source
2
+1 Bonne chance avec votre soumission [probablement NIPS]!
amibe dit de réintégrer Monica
13

Vous voulez minimiser les deux termes dans la fonction objectif. Par conséquent, vous devez découpler les termes. Si vous multipliez les termes, vous pouvez avoir un terme large et l’autre très faible. Vous vous retrouvez donc toujours avec une valeur faible de la fonction objectif, mais avec un résultat indésirable.

Vous pouvez vous retrouver avec un modèle dont la plupart des variables sont proches de zéro, sans aucun pouvoir prédictif.

entrez la description de l'image ici entrez la description de l'image ici

La fonction objectif, qui est la fonction à minimiser, peut être construite comme la somme de la fonction de coût et des termes de régularisation.

Si les deux sont indépendants l'un de l'autre, vous obtenez les valeurs illustrées dans la première figure de l'objectif. Vous voyez en cas de somme, il n'y a qu'un minimum à (0, 0). Dans le cas du produit, vous avez une ambiguïté. Vous avez une hyper-surface entière égale à zéro en (x = 0 ou y = 0). Ainsi, l'algorithme d'optimisation peut se retrouver n'importe où en fonction de votre initialisation. Et il ne peut pas décider quelle solution est la meilleure.

Sören
la source
10

Vous pouvez essayer d'autres opérations binaires ( ) et voir comment elles se comparent.max,min,×

Le problème avec et est que si l'erreur est , la pénalité régularisée finira par être . Cela permet au modèle de sur-adapter.min×00

Le problème avec est que vous finissez par minimiser le "plus dur" des deux pénalités (erreur d’entraînement ou régularisation), mais pas l’autre.max

En revanche, est simple et ça marche.+

Vous pourriez demander pourquoi pas d'autres opérations binaires? Aucun argument ne pourrait les exclure, alors pourquoi pas en effet?

jkabrg
la source
8

Je pense que vous avez une question valable. Pour vous donner une réponse appropriée, vous devrez comprendre la nature probabiliste du problème.

En général, le problème que nous essayons de résoudre est le suivant: À partir des données quelle est la distribution des hypothèses qui explique ces données? Lorsque nous disons hypothèse, nous entendons un PDF (du moins dans ce contexte). Et une distribution d’hypothèses est un PDF de PDF, c’est-à-dire .Dp(H|D)

  1. p(H|D) est une distribution sur des hypothèses données . Si nous pouvons le trouver, nous pouvons en choisir une parmi ces hypothèses, par exemple celle qui présente la probabilité la plus élevée, ou choisir de faire la moyenne pour toutes. Une approche un peu plus simple consiste à aborder le problème sous un angle différent en utilisant le théorème de Bayes.D

    p(H|D)=p(D|H)×p(H)p(D)
  2. p(D|H) est l’une des hypothèses, elle est aussi appelée probabilité. est la distribution des hypothèses dans notre univers d'hypothèses avant l'observation des données. Après avoir observé les données, nous mettons à jour nos croyances.p(H)

  3. p(D) est la moyenne des hypothèses avant la mise à jour de nos croyances.

Maintenant, si nous prenons le des deux côtés de l'équation de Bayes, nous obtenons:log

log[p(H|D)]=log[p(D|H)]log[p(H)]+log[p(D)]

Habituellement, est difficile à calculer. La bonne chose est que cela n'affecte pas le résultat. C'est simplement une constante de normalisation.p(D)

Maintenant, par exemple, si notre ensemble d’hypothèses est un groupe de Gaussiens avec où nous ne savons pas , mais supposons connaître (ou du moins supposons que ce soit une constante), et de plus, les hypothèses elles-mêmes sont distribuées comme un gaussien avec puis brancher tout ce qui précède ressemble à quelque chose comme:p(D|H)p(y|X,θ)N(θX,σ)θσp(H)=p(θ)N(0,α1I)

log[p(H|D)]=bunch of constants+12(yθX)2+12α||θ||2+constant

Maintenant, si nous minimisons cette expression, nous trouvons l'hypothèse avec la probabilité la plus élevée. Les constantes n'affectent pas la minimisation. Ceci est l'expression dans votre question.

Le fait que nous ayons utilisé des Gaussiens ne change rien au fait que le terme de régularisation est additionnel. Il doit être additif (en termes logiques ou multiplicatif en probabilités), il n'y a pas d'autre choix. Ce qui changera si nous utilisons d'autres distributions, ce sont les composants de l'addition. La fonction de coût / perte que vous avez fournie est optimale pour un scénario spécifique de Gaussiennes.

Cagdas Ozgenc
la source
Hey Cagdas, merci pour l'explication. Je n'ai pas compris la transformation de la dernière équation de la RHS. Pouvez-vous indiquer une ressource pour que je comprenne cette partie plus clairement
Itachi
7

Ridge est une formulation très pratique. Contrairement aux réponses probabilistes, cette réponse ne donne aucune interprétation de l'estimation, mais explique plutôt pourquoi la crête est une formulation ancienne et évidente.

En régression linéaire, les équations normales donnent θ^=(XTX)1XTy

Mais, la matrice n'est parfois pas inversible; une façon de l'ajuster est d'ajouter un petit élément à la diagonale:XTXXTX+αI .

Ceci donne la solution: ; alors ne résout pas le problème initial mais le problème de la crête.θ~=(XTX+αI)1XTyθ~

wpof
la source
3
Veuillez préciser les réponses auxquelles vous faites référence. L'ordre se déplacera au fur et à mesure que les votes s'accumulent, de sorte que "au-dessus" est intrinsèquement ambigu.
gung - Réintégrer Monica
1

Je pense qu'il y a une raison plus intuitive pour laquelle nous ne pouvons pas multiplier par le terme de régularisation.

Passons notre fonction de pénalité à la fonction de pénalité normale multipliée par un terme de régularisation comme vous le suggérez.

J(θ)=(12(yθXT)(yθXT)T)αθ22

Ici, nous créons un minimum global de la fonction de pénalité où . Dans ce cas, notre modèle peut produire des erreurs élevées entre la prévision et les données, mais peu importe si les pondérations du paramètre du modèle sont toutes égales à zéro, notre fonction de pénalité est égale à .αθ22=0J(θ=0)=0

Puisque, à moins que notre modèle ne soit complètement parfait, le terme(12(yθXT)(yθXT)T) ne peut jamais être nul (la probabilité qu'il existe un ensemble θ pour rendre notre modèle 'parfait' est négligeable pour des données réelles), notre modèle devrait toujours avoir tendance à s'entraîner vers la solution θ = 0.

C’est ce qu’il retournera à moins d’être coincé dans un minimum local quelque part.

James Fulton
la source