Régression des crêtes - interprétation bayésienne

15

J'ai entendu dire que la régression des crêtes peut être dérivée comme la moyenne d'une distribution postérieure, si l'a priori est adéquatement choisi. L'intuition est-elle que les contraintes définies sur les coefficients de régression par les a priori (par exemple, les distributions normales standard autour de 0) sont identiques / remplacent la pénalité fixée sur la taille au carré des coefficients? Le prieur doit-il être gaussien pour que cette équivalence soit valable?

user1885116
la source

Réponses:

15

Non, dans le sens où d'autres prieurs sont logiquement liés à d'autres sanctions. En général, vous voulez plus d'effet de masse proche de zéro ( ) pour réduire le sur-ajustement / la sur-interprétation. La crête est une pénalité quadratique (L2, gaussienne), le lasso est une(L1, Laplace ou double distribution exponentielle) pénalité. De nombreuses autres pénalités (priors) sont disponibles. L'approche bayésienne a l'avantage de fournir une interprétation solide (et des intervalles crédibles solides) tandis que l'estimation du maximum de vraisemblance pénalisée (crête, lasso, etc.) donne des valeurs et des intervalles de confiance difficiles à interpréter, car l'approche fréquentiste est quelque peu confuse par des estimateurs biaisés (rétrécis vers zéro).β=0|β|P

Frank Harrell
la source
10

Deux points:

β^

Il est vrai que dans le cas d'une probabilité multivariée normale a priori et multivariée normale, le postérieur est multivarié normal avec une moyenne qui est l'estimation de régression de crête pour un paramètre de crête choisi de manière appropriée.

La preuve de cela dépend de la forme particulière de l'a priori et de la vraisemblance et ne fonctionne pas pour les fonctions a priori ou de vraisemblance plus générales.

Brian Borchers
la source