LASSO et la crête du point de vue bayésien: qu'en est-il du paramètre de réglage?

17

Les estimateurs de régression pénalisés tels que LASSO et ridge correspondraient aux estimateurs bayésiens avec certains a priori. Je suppose (comme je ne connais pas assez les statistiques bayésiennes) que pour un paramètre de réglage fixe, il existe un a priori concret correspondant.

Maintenant, un fréquentiste optimiserait le paramètre de réglage par validation croisée. Y a-t-il un équivalent bayésien de le faire et est-il utilisé du tout? Ou l'approche bayésienne fixe-t-elle efficacement le paramètre de réglage avant de voir les données? (Je suppose que ce dernier serait préjudiciable aux performances prédictives.)

Richard Hardy
la source
3
J'imagine qu'une approche entièrement bayésienne commencerait par un a priori donné et ne le modifierait pas, oui. Mais il existe également une approche empirique bayésienne qui optimise les valeurs hyperparamétriques: par exemple, voir stats.stackexchange.com/questions/24799 .
amibe dit Réintégrer Monica
Question supplémentaire (pourrait faire partie du Q principal): Existe-t-il un préalable sur le paramètre de régularisation qui remplace d'une manière ou d'une autre le processus de validation croisée?
kjetil b halvorsen
1
Les bayésiens peuvent mettre un prior sur le paramètre de réglage, car il correspond généralement à un paramètre de variance. C'est généralement ce qui est fait pour éviter les CV afin de rester pleinement Bayes. Vous pouvez également utiliser REML pour optimiser le paramètre de régularisation.
gars
2
PS: à ceux qui visent la prime, notez mon commentaire: je veux voir une réponse explicite qui montre un a priori qui induit une estimation MAP équivalente à une validation croisée fréquentiste.
statslearner2
1
@ statslearner2 Je pense que cela répond très bien à la question de Richard. Votre prime semble se concentrer sur un aspect plus étroit (à propos d'un hyperprior) que le Q. de Richard
amibe dit Reinstate Monica

Réponses:

18

Les estimateurs de régression pénalisés tels que LASSO et ridge correspondraient aux estimateurs bayésiens avec certains a priori.

Oui c'est correct. Chaque fois que nous avons un problème d'optimisation impliquant la maximisation de la fonction log-vraisemblance plus une fonction de pénalité sur les paramètres, cela est mathématiquement équivalent à la maximisation postérieure où la fonction de pénalité est considérée comme le logarithme d'un noyau antérieur. Pour le voir, supposons que nous ayons une fonction de pénalité w utilisant un paramètre de réglage λ . La fonction objective dans ces cas peut s'écrire:wλ

Hx(θ|λ)=x(θ)w(θ|λ)=ln(Lx(θ)exp(w(θ|λ)))=ln(Lx(θ)π(θ|λ)Lx(θ)π(θ|λ)dθ)+const=lnπ(θ|x,λ)+const,

où nous utilisons le précédent π(θ|λ)exp(w(θ|λ)) . Observez ici que le paramètre de réglage dans l'optimisation est traité comme un hyperparamètre fixe dans la distribution précédente. Si vous effectuez une optimisation classique avec un paramètre de réglage fixe, cela équivaut à entreprendre une optimisation bayésienne avec un hyper-paramètre fixe. Pour la régression LASSO et Ridge, les fonctions de pénalité et les équivalents antérieurs correspondants sont:

LASSO Regressionπ(θ|λ)=k=1mLaplace(0,1λ)=k=1mλ2exp(λ|θk|),Ridge Regressionπ(θ|λ)=k=1mNormal(0,12λ)=k=1mλ/πexp(λθk2).

La première méthode pénalise les coefficients de régression en fonction de leur amplitude absolue, ce qui équivaut à imposer un a priori de Laplace situé à zéro. Cette dernière méthode pénalise les coefficients de régression en fonction de leur ampleur au carré, ce qui équivaut à imposer un a priori normal situé à zéro.

Maintenant, un fréquentiste optimiserait le paramètre de réglage par validation croisée. Y a-t-il un équivalent bayésien de le faire et est-il utilisé du tout?

Tant que la méthode fréquentiste peut être posée comme un problème d'optimisation (plutôt que de dire, y compris un test d'hypothèse, ou quelque chose comme ça), il y aura une analogie bayésienne utilisant un précédent équivalent. Tout comme les fréquentistes peuvent traiter le paramètre de réglage λ comme inconnu et l'estimer à partir des données, le bayésien peut également traiter l'hyperparamètre λ comme inconnu. Dans une analyse bayésienne complète, cela impliquerait de donner à l'hyperparamètre son propre a priori et de trouver le maximum postérieur sous cet a priori, ce qui serait analogue à maximiser la fonction objective suivante:

Hx(θ,λ)=x(θ)w(θ|λ)h(λ)=ln(Lx(θ)exp(w(θ|λ))exp(h(λ)))=ln(Lx(θ)π(θ|λ)π(λ)Lx(θ)π(θ|λ)π(λ)dθ)+const=lnπ(θ,λ|x)+const.

Cette méthode est en effet utilisée en analyse bayésienne dans les cas où l'analyste n'est pas à l'aise de choisir un hyperparamètre spécifique pour son a priori, et cherche à rendre le a priori plus diffus en le traitant comme inconnu et en lui donnant une distribution. (Notez que ce n'est qu'un moyen implicite de donner un plus diffus avant le paramètre d'intérêt θ .)

(Commentaire de statslearner2 ci-dessous) Je recherche des estimations MAP numériques équivalentes. Par exemple, pour une crête à pénalité fixe, il y a un a priori gaussien qui me donnera l'estimation MAP exactement égale à l'estimation de la crête. Maintenant, pour l'arête CV k-fold, quel est l'hyper-prior qui me donnerait l'estimation MAP qui est similaire à l'estimation de l'arête CV?

Avant de passer à la validation croisée du facteur K , il convient tout d'abord de noter que, mathématiquement, la méthode du maximum a posteriori (MAP) est simplement une optimisation d'une fonction du paramètre θ et des données x . Si vous êtes prêt à autoriser des antécédents incorrects, la portée englobe tout problème d'optimisation impliquant une fonction de ces variables. Ainsi, toute méthode fréquentiste qui peut être définie comme un seul problème d'optimisation de ce type a une analogie MAP, et toute méthode fréquentiste qui ne peut pas être définie comme une seule optimisation de ce type n'a pas d'analogie MAP.

Dans la forme de modèle ci-dessus, impliquant une fonction de pénalité avec un paramètre de réglage, la validation croisée de facteur K est couramment utilisée pour estimer le paramètre de réglage λ . Pour cette méthode , vous partitionner le vecteur de données x en K sous-vecteurs x1,...,xK . Pour chacun des sous-vecteur k=1,...,K vous ajustez le modèle avec les données "d'apprentissage" xk , puis vous mesurez l'ajustement du modèle avec les données "d'essai" xk. Dans chaque ajustement, vous obtenez un estimateur pour les paramètres du modèle, qui vous donne ensuite des prédictions des données de test, qui peuvent ensuite être comparées aux données de test réelles pour donner une mesure de la "perte":

Estimatorθ^(xk,λ),Predictionsx^k(xk,λ),Testing lossLk(x^k,xk|xk,λ).

Les mesures de perte pour chacun des K "replis" peuvent ensuite être agrégées pour obtenir une mesure de perte globale pour la validation croisée:

L(x,λ)=kLk(x^k,xk|xk,λ)

On estime ensuite le paramètre de réglage en minimisant la mesure de perte globale:

λ^λ^(x)arg min λL(x,λ).

θλθ

Hx(θ,λ)=x(θ)w(θ|λ)δL(x,λ),

where δ>0 is a weighting value on the tuning-loss. As δ the weight on optimisation of the tuning-loss becomes infinite and so the optimisation problem yields the estimated tuning parameter from K-fold cross-validation (in the limit). The remaining part of the objective function is the standard objective function conditional on this estimated value of the tuning parameter. Now, unfortunately, taking δ= screws up the optimisation problem, but if we take δ to be a very large (but still finite) value, we can approximate the combination of the two optimisation problems up to arbitrary accuracy.

From the above analysis we can see that it is possible to form a MAP analogy to the model-fitting and K-fold cross-validation process. This is not an exact analogy, but it is a close analogy, up to arbitrarily accuracy. It is also important to note that the MAP analogy no longer shares the same likelihood function as the original problem, since the loss function depends on the data and is thus absorbed as part of the likelihood rather than the prior. In fact, the full analogy is as follows:

Hx(θ,λ)=x(θ)w(θ|λ)δL(x,λ)=ln(Lx(θ,λ)π(θ,λ)Lx(θ,λ)π(θ,λ)dθ)+const,

where Lx(θ,λ)exp(x(θ)δL(x,λ)) and π(θ,λ)exp(w(θ|λ)), with a fixed (and very large) hyper-parameter δ.


This gives an improper prior in cases where the penalty does not correspond to the logarithm of a sigma-finite density.

Reinstate Monica
la source
2
Ok +1 already, but for the bounty I'm looking for these more precise answers.
statslearner2
4
1. I do not get how (since frequentists generally use classical hypothesis tests, etc., which have no Bayesian equivalent) connects to the rest of what I or you are saying; parameter tuning has nothing to do with hypothesis tests, or does it? 2. Do I understand you correctly that there is no Bayesian equivalent to frequentist regularized estimation when the tuning parameter is selected by cross validation? What about empirical Bayes that amoeba mentions in the comments to the OP?
Richard Hardy
3
3. Since regularization with cross validation seems to be quite effective for, say, prediction, doesn't point 2. suggest that the Bayesian approach is somehow inferior?
Richard Hardy
1
@Ben, thanks for your explicit answer and the subsequent clarifications. You have once again done a wonderful job! Regarding 3., yes, it was quite a jump; it certainly is not a strict logical conclusion. But looking at your points w.r.t. 2. (that a Bayesian method can approximate the frequentist penalized optimization with cross validation), I no longer think that Bayesian must be "inferior". The last quibble on my side is, could you perhaps explain how the last, complicated formula could arise in practice in the Bayesian paradigm? Is it something people would normally use or not?
Richard Hardy
2
@Ben (ctd) My problem is that I know little about Bayes. Once it gets technical, I may easily lose the perspective. So I wonder whether this complicated analogy (the last formula) is something that is just a technical possibility or rather something that people routinely use. In other words, I am interested in whether the idea behind cross validation (here in the context of penalized estimation) is resounding in the Bayesian world, whether its advantages are utilized there. Perhaps this could be a separate question, but a short description will suffice for this particular case.
Richard Hardy
6

Indeed most penalized regression methods correspond to placing a particular type of prior to the regression coefficients. For example, you get the LASSO using a Laplace prior, and the ridge using a normal prior. The tuning parameters are the “hyperparameters” under the Bayesian formulation for which you can place an additional prior to estimate them; for example, for in the case of the ridge it is often assumed that the inverse variance of the normal distribution has a χ2 prior. However, as one would expect, resulting inferences can be sensitive to the choice of the prior distributions for these hyperparameters. For example, for the horseshoe prior there are some theoretical results that you should place such a prior for the hyperparameters that it would reflect the number of non-zero coefficients you expect to have.

A nice overview of the links between penalized regression and Bayesian priors is given, for example, by Mallick and Yi.

Dimitris Rizopoulos
la source
Thank you for your answer! The linked paper is quite readable, which is nice.
Richard Hardy
2
This does not answer the question, can you elaborate to explain how does the hyper-prior relate to k-fold CV?
statslearner2