Chaque fois que la régularisation est utilisée, elle est souvent ajoutée à la fonction de coût, comme dans la fonction de coût suivante.
Cela me semble intuitif puisque minimiser le fonction de coût signifie minimiser l'erreur (le terme de gauche) et minimiser les magnitudes des coefficients (le terme de droite) en même temps (ou au moins en équilibrant les deux minimisations).
Ma question est la suivante: pourquoi ce terme de régularisation ajouté à la fonction de coût d’origine et ne se multiplie-t-il pas ou autre chose qui garde l’esprit de motivation derrière l’idée de régularisation? Est-ce parce que si nous ajoutons simplement le terme, il est suffisamment simple et nous permet de résoudre ce problème de manière analytique ou existe-t-il une raison plus profonde?
regularization
grenmester
la source
la source
Réponses:
Il a une assez bonne intuition dans le cadre bayésien. Considérons que la fonction de coût régulariséeJ a un rôle similaire à celui de la probabilité d'une configuration de paramètre θ étant donné les observations X,y . En appliquant le théorème de Bayes, on obtient:
Prendre le journal de l'expression nous donne:
Supposons maintenant que est le 1 log-postérieur négatif , . Comme le dernier terme ne dépend pas de , nous pouvons l'omettre sans changer le minimum. Il vous reste deux termes: 1) le terme de vraisemblance fonction de et , et 2) le terme précédent fonction de uniquement. Ces deux termes correspondent exactement au terme de données et au terme de régularisation de votre formule.J(θ) −logP(θ|X,y) θ logP(X,y|θ) X y logP(θ) θ
Vous pouvez aller encore plus loin et montrer que la fonction de perte que vous avez postée correspond exactement au modèle suivant:
où les paramètres proviennent d'une distribution gaussienne à moyenne nulle et les observations ont un bruit gaussien à moyenne nulle. Pour plus de détails, voir cette réponse .θ y
1 Négatif puisque vous souhaitez maximiser la probabilité tout en minimisant les coûts.
la source
Jan et Cagdas donnent une bonne raison bayésienne, interprétant le régularisateur comme un prieur. Voici quelques uns non-bayésiens:
Si votre objectif non régularisé est convexe et que vous ajoutez un régularisateur convexe, votre objectif total sera toujours convexe. Ce ne sera pas vrai si vous le multipliez, ou la plupart des autres méthodes de combinaison. L'optimisation convexe est vraiment très agréable comparée à l'optimisation non convexe; Si la formulation convexe fonctionne, il est préférable de le faire.
Cela aboutit parfois à une forme fermée très simple, comme on le mentionne pour la régression des crêtes.
Si vous pensez au problème que vous "voulez" vraiment résoudre comme un problème avec une contrainte dure son dual de Lagrange est le problème Bien que vous ne devez utiliser la dualité Lagrange, beaucoup est entendu à ce sujet.
Comme ogogmad l’a mentionné , le théorème du représentant s’applique au cas d’une pénalité additive: si vous voulez optimiser sur un noyau de reproduction entier, espace de fonctions , nous savons que la solution à l’optimisation sur tout l’espace se trouve dans un simple sous-espace de dimension finie pour de nombreuses pertes ; Je ne sais pas si cela serait valable pour un régularisateur multiplicatif (bien que cela puisse être le cas). C’est le fondement des SVM du noyau.f H
Si vous faites un apprentissage en profondeur ou quelque chose de non convexe, les pertes additives donnent des gradients additifs simples. Pour le simple régularisateur vous avez donné, la perte de poids devient très simple . Mais même pour un régularisateur plus compliqué, par exemple le WGAN-GP perte de il est plus facile pour la rétropropagation de calculer les gradients s’il ne faut tenir compte que de la somme de la perte et du régulariseur compliqué (en considérant les choses séparément), au lieu de devoir faire la règle du produit.L2
Les pertes additives dépendent également de l' algorithme d'optimisation ADMM , ainsi que d'autres algorithmes basés sur la "décomposition".
Aucune de ces règles n'est stricte , et en fait, parfois, un régularisateur multiplicatif (ou autre) pourrait fonctionner mieux (comme le souligne ogogmad ). (En fait, l’autre jour, j’ai présenté un article sur la façon dont une chose que vous pourriez interpréter comme un régularisateur multiplicatif donne de meilleurs résultats que l’additif WGAN-GP ci-dessus!) Mais nous espérons que cela aide à expliquer pourquoi les régularisateurs additifs sont «par défaut».
la source
Vous voulez minimiser les deux termes dans la fonction objectif. Par conséquent, vous devez découpler les termes. Si vous multipliez les termes, vous pouvez avoir un terme large et l’autre très faible. Vous vous retrouvez donc toujours avec une valeur faible de la fonction objectif, mais avec un résultat indésirable.
Vous pouvez vous retrouver avec un modèle dont la plupart des variables sont proches de zéro, sans aucun pouvoir prédictif.
La fonction objectif, qui est la fonction à minimiser, peut être construite comme la somme de la fonction de coût et des termes de régularisation.
Si les deux sont indépendants l'un de l'autre, vous obtenez les valeurs illustrées dans la première figure de l'objectif. Vous voyez en cas de somme, il n'y a qu'un minimum à (0, 0). Dans le cas du produit, vous avez une ambiguïté. Vous avez une hyper-surface entière égale à zéro en (x = 0 ou y = 0). Ainsi, l'algorithme d'optimisation peut se retrouver n'importe où en fonction de votre initialisation. Et il ne peut pas décider quelle solution est la meilleure.
la source
Vous pouvez essayer d'autres opérations binaires ( ) et voir comment elles se comparent.max,min,×
Le problème avec et est que si l'erreur est , la pénalité régularisée finira par être . Cela permet au modèle de sur-adapter.min × 0 0
Le problème avec est que vous finissez par minimiser le "plus dur" des deux pénalités (erreur d’entraînement ou régularisation), mais pas l’autre.max
En revanche, est simple et ça marche.+
Vous pourriez demander pourquoi pas d'autres opérations binaires? Aucun argument ne pourrait les exclure, alors pourquoi pas en effet?
la source
Je pense que vous avez une question valable. Pour vous donner une réponse appropriée, vous devrez comprendre la nature probabiliste du problème.
En général, le problème que nous essayons de résoudre est le suivant: À partir des données quelle est la distribution des hypothèses qui explique ces données? Lorsque nous disons hypothèse, nous entendons un PDF (du moins dans ce contexte). Et une distribution d’hypothèses est un PDF de PDF, c’est-à-dire .D p(H|D)
Maintenant, si nous prenons le des deux côtés de l'équation de Bayes, nous obtenons:−log
Habituellement, est difficile à calculer. La bonne chose est que cela n'affecte pas le résultat. C'est simplement une constante de normalisation.p(D)
Maintenant, par exemple, si notre ensemble d’hypothèses est un groupe de Gaussiens avec où nous ne savons pas , mais supposons connaître (ou du moins supposons que ce soit une constante), et de plus, les hypothèses elles-mêmes sont distribuées comme un gaussien avec puis brancher tout ce qui précède ressemble à quelque chose comme:p(D|H) p(y|X,θ)∼N(θX,σ) θ σ p(H)=p(θ)∼N(0,α−1I)
Maintenant, si nous minimisons cette expression, nous trouvons l'hypothèse avec la probabilité la plus élevée. Les constantes n'affectent pas la minimisation. Ceci est l'expression dans votre question.
Le fait que nous ayons utilisé des Gaussiens ne change rien au fait que le terme de régularisation est additionnel. Il doit être additif (en termes logiques ou multiplicatif en probabilités), il n'y a pas d'autre choix. Ce qui changera si nous utilisons d'autres distributions, ce sont les composants de l'addition. La fonction de coût / perte que vous avez fournie est optimale pour un scénario spécifique de Gaussiennes.
la source
Ridge est une formulation très pratique. Contrairement aux réponses probabilistes, cette réponse ne donne aucune interprétation de l'estimation, mais explique plutôt pourquoi la crête est une formulation ancienne et évidente.
En régression linéaire, les équations normales donnentθ^=(XTX)−1XTy
Mais, la matrice n'est parfois pas inversible; une façon de l'ajuster est d'ajouter un petit élément à la diagonale:XTX XTX+αI .
Ceci donne la solution: ; alors ne résout pas le problème initial mais le problème de la crête.θ~=(XTX+αI)−1XTy θ~
la source
Je pense qu'il y a une raison plus intuitive pour laquelle nous ne pouvons pas multiplier par le terme de régularisation.
Passons notre fonction de pénalité à la fonction de pénalité normale multipliée par un terme de régularisation comme vous le suggérez.
Ici, nous créons un minimum global de la fonction de pénalité où . Dans ce cas, notre modèle peut produire des erreurs élevées entre la prévision et les données, mais peu importe si les pondérations du paramètre du modèle sont toutes égales à zéro, notre fonction de pénalité est égale à .α∥θ∥22=0 J(θ=0)=0
Puisque, à moins que notre modèle ne soit complètement parfait, le terme(12(y−θXT)(y−θXT)T) ne peut jamais être nul (la probabilité qu'il existe un ensemble θ pour rendre notre modèle 'parfait' est négligeable pour des données réelles), notre modèle devrait toujours avoir tendance à s'entraîner vers la solution θ = 0.
C’est ce qu’il retournera à moins d’être coincé dans un minimum local quelque part.
la source