Pourquoi le facteur de normalisation est requis dans le théorème de Bayes?

20

Le théorème de Bayes va

P(model|data)=P(model)×P(data|model)P(data)

Tout va bien. Mais, j'ai lu quelque part:

Fondamentalement, P (données) n'est rien d'autre qu'une constante de normalisation, c'est-à-dire une constante qui fait que la densité postérieure s'intègre à une.

Nous savons que 0P(model)1 et 0P(data|model)1 .

Par conséquent, P(model)×P(data|model) doit également être compris entre 0 et 1. Dans un tel cas, pourquoi avons-nous besoin d'une constante de normalisation pour que le postérieur s'intègre à un?

Sreejith Ramakrishnan
la source
4
Lorsque vous travaillez avec des densités de probabilité , comme mentionné dans cet article, vous ne pouvez plus conclure 0 <= P(model) <= 1ni 0 <= P(data/model) <= 1parce que l'une (ou même les deux!) De celles-ci pourraient dépasser (et même être infinies). Voir stats.stackexchange.com/questions/4220 . 1
whuber
1
Ce n'est pas le cas que car cette notation vague représente la vraisemblance intégrée des données, pas une probabilité.
P(data|model)1
Xi'an

Réponses:

15

Premièrement , l'intégrale de "vraisemblance x antérieure" n'est pas nécessairement 1 .

Il n'est pas vrai que si:

et 0 P ( données | modèle ) 10P(model)10P(data|model)1

alors l'intégrale de ce produit par rapport au modèle (aux paramètres du modèle, en effet) est 1.

Manifestation. Imaginez deux densités discrètes:

P(model)=[0.5,0.5] (this is called "prior")P(data | model)=[0.80,0.2] (this is called "likelihood")

Si vous les multipliez tous les deux, vous obtenez: qui n'est pas une densité valide car elle ne s'intègre pas à une: 0,40 + 0,25 = 0,65

[0.40,0.25]
0.40+0.25=0.65

Alors, que devons-nous faire pour forcer l'intégrale à être 1? Utilisez le facteur de normalisation, qui est:

model_paramsP(model)P(data | model)=model_paramsP(model, data)=P(data)=0.65

(désolé pour la mauvaise notation. J'ai écrit trois expressions différentes pour la même chose car vous pourriez les voir toutes dans la littérature)

Deuxièmement , la «vraisemblance» peut être n'importe quoi, et même s'il s'agit d'une densité, elle peut avoir des valeurs supérieures à 1 .

Comme l'a dit @whuber, ces facteurs n'ont pas besoin d'être compris entre 0 et 1. Ils ont besoin que leur intégrale (ou somme) soit 1.

Troisièmement [extra], les "conjugués" sont vos amis pour vous aider à trouver la constante de normalisation .

Vous verrez souvent: car le dénominateur manquant peut être facilement obtenu en intégrant ce produit. Notez que cette intégration aura un résultat bien connu si le précédent et la vraisemblance sont conjugués .

P(model|data)P(data|model)P(model)
alberto
la source
+1. C'est la seule réponse qui répond réellement à la question initiale de savoir pourquoi la constante de normalisation est nécessaire pour que le postérieur s'intègre à un . Ce que vous ferez plus tard avec le postérieur (par exemple l'inférence MCMC ou le calcul des probabilités absolues) est une autre affaire.
Pedro Mediano
P(model)=[0.5,0.5]σ2=1μP(μ)=[0.5,0.5]
μest continue et peut prendre des valeurs infinies.
alberto
12

La réponse courte à votre question est que sans le dénominateur, l'expression sur le côté droit est simplement une probabilité , pas une probabilité , qui ne peut aller que de 0 à 1. La "constante de normalisation" nous permet d'obtenir la probabilité de l'occurrence d'un événement, plutôt que simplement la probabilité relative de cet événement par rapport à un autre.

heropup
la source
8

Vous avez déjà obtenu deux réponses valides, mais permettez-moi d'ajouter mes deux cents.

Le théorème de Bayes est souvent défini comme:

P(modèle | Les données)P(modèle)×P(Les données | modèle)

car la seule raison pour laquelle vous avez besoin de la constante est qu'elle s'intègre à 1 (voir les réponses des autres). Cela n'est pas nécessaire dans la plupart des approches de simulation MCMC de l'analyse bayésienne et la constante est donc supprimée de l'équation. Donc, pour la plupart des simulations, ce n'est même pas nécessaire.

J'aime la description par Kruschke : le dernier chiot (constant) est endormi parce qu'il n'a rien à voir dans la formule.

enter image description here

Certains, comme Andrew Gelman, considèrent également la constante comme "surfaite" et "essentiellement dénuée de sens lorsque les gens utilisent des prieurs plats" (voir la discussion ici ).

Tim
la source
9
+1 à l'introduction des chiots. "Aucun animal n'a été blessé dans l'écriture de cette réponse" :)
alberto