Modèle de régression linéaire simple
yi=α+βxi+ε
peut être écrit en termes de modèle probabiliste derrière elle
μi=α+βxiyi∼N(μi,σ)
c'est-à-dire que la variable dépendante suit la distribution normale paramétrée par la moyenne , c'est-à-dire une fonction linéaire de paramétrisée par et par l'écart type . Si vous estimez ce modèle à l'aide des moindres carrés ordinaires , vous n'avez pas à vous préoccuper de la formulation probabiliste, car vous recherchez des valeurs optimales pour paramètres en minimisant les erreurs au carré des valeurs ajustées aux valeurs prédites. D'autre part, vous pouvez estimer ce modèle à l'aide de l' estimation du maximum de vraisemblance , où vous recherchez des valeurs optimales de paramètres en maximisant la fonction de vraisemblance.YμiXα,βσα,β
argmaxα,β,σ∏i=1nN(yi;α+βxi,σ)
où est une fonction de densité de la distribution normale évaluée aux points , paramétrée par le moyen et l'écart type .Nyiα+βxiσ
Dans l'approche bayésienne au lieu de maximiser la fonction de vraisemblance uniquement, nous supposerions des distributions antérieures pour les paramètres et utiliserons le théorème de Bayes
posterior∝likelihood×prior
La fonction de vraisemblance est la même que ci-dessus, mais ce qui change est que vous supposez certaines distributions antérieures pour les paramètres estimés et que vous les incluez dans l'équation.α,β,σ
f(α,β,σ∣Y,X)posterior∝∏i=1nN(yi∣α+βxi,σ)likelihoodfα(α)fβ(β)fσ(σ)priors
"Quelles distributions?" est une question différente, car il y a un nombre illimité de choix. Pour paramètres , vous pouvez par exemple supposer des distributions normales paramétrées par certains hyperparamètres , ou -distribution si vous voulez assumer des queues plus lourdes, ou une distribution uniforme si vous ne voulez pas faire beaucoup d’hypothèses, mais vous voulez supposer que les paramètres peuvent être a priori "tout ce qui est compris dans la plage donnée", etc. Pour vous devez supposer une distribution antérieure dont la borne est supérieure à zéro, car l'écart type doit être positif. Cela peut conduire à la formulation du modèle, illustrée ci-dessous par John K. Kruschke.α,βtσ
(source: http://www.indiana.edu/~kruschke/BMLR/ )
Alors que vous cherchiez au maximum de probabilité que vous recherchiez une seule valeur optimale pour chacun des paramètres, en appliquant l'approche Bayesienne en appliquant le théorème de Bayes, vous obtenez la distribution a posteriori des paramètres. L'estimation finale dépendra des informations provenant de vos données et de vos a priori , mais plus vous y trouverez d'informations, moins les a priori ont d'influence .
Notez que lorsque vous utilisez des a priori uniformes, ils prennent la forme après la suppression des constantes de normalisation. Cela rend le théorème de Bayes uniquement proportionnel à la fonction de vraisemblance, de sorte que la distribution postérieure atteindra son maximum exactement au même point que l'estimation du maximum de vraisemblance. Ce qui suit, l’estimation sous les a priori uniformes sera la même que pour les moindres carrés ordinaires, car minimiser les erreurs au carré correspond à la maximisation de la vraisemblance normale .f(θ)∝1
Pour estimer un modèle en approche bayésienne, dans certains cas, vous pouvez utiliser des a priori conjugués . La distribution a posteriori est donc directement disponible (voir exemple ici ). Cependant, dans la grande majorité des cas, la distribution postérieure ne sera pas directement disponible et vous devrez utiliser les méthodes de Markov en chaîne de Monte Carlo pour estimer le modèle (consultez cet exemple d'utilisation de l'algorithme de Metropolis-Hastings pour estimer les paramètres de régression linéaire). Enfin, si vous n’êtes intéressé que par des estimations ponctuelles de paramètres, vous pouvez utiliser une estimation maximale a posteriori , à savoir:
argmaxα,β,σf(α,β,σ∣Y,X)
Pour une description plus détaillée de la régression logistique, vous pouvez vérifier le modèle logit bayésien - explication intuitive? fil.
Pour en savoir plus, vous pouvez consulter les livres suivants:
Kruschke, J. (2014). Analyse bayésienne de données: didacticiel avec R, JAGS et Stan. Presse académique.
Gelman, A., Carlin, JB, Stern, HS et Rubin, DB (2004).
Analyse bayésienne des données. Chapman & Hall / CRC.
Étant donné un ensemble de données où , une régression linéaire bayésienne modélise le problème de la manière suivante:D=(x1,y1),…,(xN,yN) x∈Rd,y∈R
Prior:
Probabilité:
Nous supposons queYi⊥Yj|w,i≠j
Pour le moment, nous allons utiliser la précision au lieu de la variance, et . Nous supposerons également que sont connus.a=1/σ2 b=1/σ2w a,b
Le prior peut être énoncé sous la forme
Et la probabilité
où et est un la matrice où le i-ième rangée est .y=(y1,…,yN)T A n×d xTi
Alors le postérieur est
Après de nombreux calculs, nous découvrons que
où ( est la matrice de précision)Λ
Notez que est égal au de la régression linéaire régulière, car, pour le gaussien, la moyenne est égale au mode.μ wMAP
De plus, nous pouvons faire de l’algèbre sur et obtenir l’égalité suivante ( ):μ Λ=aATA+bId
et comparez avec :wMLE
L'expression supplémentaire dans correspond à la précédente. Ceci est similaire à l'expression de la régression Ridge, pour le cas spécial où . La régression de crête est plus générale car la technique peut choisir des a priori inappropriés (dans la perspective bayésienne).μ λ=ba
Pour la distribution prédictive postérieure:
il est possible de calculer que
Référence: Lunn et al. Le livre de bogues
Pour utiliser un outil MCMC tel que JAGS / Stan, consultez l’analyse Doing Bayesian de Kruschke.
la source