Les estimateurs de régression pénalisés tels que LASSO et ridge correspondraient aux estimateurs bayésiens avec certains a priori. Je suppose (comme je ne connais pas assez les statistiques bayésiennes) que pour un paramètre de réglage fixe, il existe un a priori concret correspondant.
Maintenant, un fréquentiste optimiserait le paramètre de réglage par validation croisée. Y a-t-il un équivalent bayésien de le faire et est-il utilisé du tout? Ou l'approche bayésienne fixe-t-elle efficacement le paramètre de réglage avant de voir les données? (Je suppose que ce dernier serait préjudiciable aux performances prédictives.)
bayesian
lasso
ridge-regression
Richard Hardy
la source
la source
Réponses:
Oui c'est correct. Chaque fois que nous avons un problème d'optimisation impliquant la maximisation de la fonction log-vraisemblance plus une fonction de pénalité sur les paramètres, cela est mathématiquement équivalent à la maximisation postérieure où la fonction de pénalité est considérée comme le logarithme d'un noyau antérieur. † Pour le voir, supposons que nous ayons une fonction de pénalité w utilisant un paramètre de réglage λ . La fonction objective dans ces cas peut s'écrire:† w λ
où nous utilisons le précédentπ(θ|λ)∝exp(−w(θ|λ)) . Observez ici que le paramètre de réglage dans l'optimisation est traité comme un hyperparamètre fixe dans la distribution précédente. Si vous effectuez une optimisation classique avec un paramètre de réglage fixe, cela équivaut à entreprendre une optimisation bayésienne avec un hyper-paramètre fixe. Pour la régression LASSO et Ridge, les fonctions de pénalité et les équivalents antérieurs correspondants sont:
La première méthode pénalise les coefficients de régression en fonction de leur amplitude absolue, ce qui équivaut à imposer un a priori de Laplace situé à zéro. Cette dernière méthode pénalise les coefficients de régression en fonction de leur ampleur au carré, ce qui équivaut à imposer un a priori normal situé à zéro.
Tant que la méthode fréquentiste peut être posée comme un problème d'optimisation (plutôt que de dire, y compris un test d'hypothèse, ou quelque chose comme ça), il y aura une analogie bayésienne utilisant un précédent équivalent. Tout comme les fréquentistes peuvent traiter le paramètre de réglageλ comme inconnu et l'estimer à partir des données, le bayésien peut également traiter l'hyperparamètre λ comme inconnu. Dans une analyse bayésienne complète, cela impliquerait de donner à l'hyperparamètre son propre a priori et de trouver le maximum postérieur sous cet a priori, ce qui serait analogue à maximiser la fonction objective suivante:
Cette méthode est en effet utilisée en analyse bayésienne dans les cas où l'analyste n'est pas à l'aise de choisir un hyperparamètre spécifique pour son a priori, et cherche à rendre le a priori plus diffus en le traitant comme inconnu et en lui donnant une distribution. (Notez que ce n'est qu'un moyen implicite de donner un plus diffus avant le paramètre d'intérêtθ .)
Avant de passer à la validation croisée du facteurK , il convient tout d'abord de noter que, mathématiquement, la méthode du maximum a posteriori (MAP) est simplement une optimisation d'une fonction du paramètre θ et des données x . Si vous êtes prêt à autoriser des antécédents incorrects, la portée englobe tout problème d'optimisation impliquant une fonction de ces variables. Ainsi, toute méthode fréquentiste qui peut être définie comme un seul problème d'optimisation de ce type a une analogie MAP, et toute méthode fréquentiste qui ne peut pas être définie comme une seule optimisation de ce type n'a pas d'analogie MAP.
Dans la forme de modèle ci-dessus, impliquant une fonction de pénalité avec un paramètre de réglage, la validation croisée de facteurK est couramment utilisée pour estimer le paramètre de réglage λ . Pour cette méthode , vous partitionner le vecteur de données x en K sous-vecteurs x1,...,xK . Pour chacun des sous-vecteur k=1,...,K vous ajustez le modèle avec les données "d'apprentissage" x−k , puis vous mesurez l'ajustement du modèle avec les données "d'essai" xk . Dans chaque ajustement, vous obtenez un estimateur pour les paramètres du modèle, qui vous donne ensuite des prédictions des données de test, qui peuvent ensuite être comparées aux données de test réelles pour donner une mesure de la "perte":
Les mesures de perte pour chacun desK "replis" peuvent ensuite être agrégées pour obtenir une mesure de perte globale pour la validation croisée:
On estime ensuite le paramètre de réglage en minimisant la mesure de perte globale:
whereδ>0 is a weighting value on the tuning-loss. As δ→∞ the weight on optimisation of the tuning-loss becomes infinite and so the optimisation problem yields the estimated tuning parameter from K -fold cross-validation (in the limit). The remaining part of the objective function is the standard objective function conditional on this estimated value of the tuning parameter. Now, unfortunately, taking δ=∞ screws up the optimisation problem, but if we take δ to be a very large (but still finite) value, we can approximate the combination of the two optimisation problems up to arbitrary accuracy.
From the above analysis we can see that it is possible to form a MAP analogy to the model-fitting andK -fold cross-validation process. This is not an exact analogy, but it is a close analogy, up to arbitrarily accuracy. It is also important to note that the MAP analogy no longer shares the same likelihood function as the original problem, since the loss function depends on the data and is thus absorbed as part of the likelihood rather than the prior. In fact, the full analogy is as follows:
whereL∗x(θ,λ)∝exp(ℓx(θ)−δL(x,λ)) and π(θ,λ)∝exp(−w(θ|λ)) , with a fixed (and very large) hyper-parameter δ .
la source
Indeed most penalized regression methods correspond to placing a particular type of prior to the regression coefficients. For example, you get the LASSO using a Laplace prior, and the ridge using a normal prior. The tuning parameters are the “hyperparameters” under the Bayesian formulation for which you can place an additional prior to estimate them; for example, for in the case of the ridge it is often assumed that the inverse variance of the normal distribution has aχ2 prior. However, as one would expect, resulting inferences can be sensitive to the choice of the prior distributions for these hyperparameters. For example, for the horseshoe prior there are some theoretical results that you should place such a prior for the hyperparameters that it would reflect the number of non-zero coefficients you expect to have.
A nice overview of the links between penalized regression and Bayesian priors is given, for example, by Mallick and Yi.
la source