Probabilité vs probabilité

8

J'ai des difficultés avec Likelihoods . Je comprends le théorème de Bayes

p(A|B,H)=p(B|A,H)p(A|H)p(B|H)

qui peut être directement déduit de l'application p(A,B)=p(B)p(A|B)=p(A)p(B|A)=p(B,A). Ainsi, dans mon interprétation, lep()Les fonctions du théorème de Bayes sont en quelque sorte toutes des probabilités, qu'elles soient marginales ou conditionnelles. J'ai donc pensé que la vraisemblance en tant que concept était davantage une vision fréquentiste de la probabilité inverse.

Cependant, j'ai maintenant vu à plusieurs reprises des déclarations dans les livres des bayésianistes qui disent que la probabilité n'est pas une distribution de probabilité. En lisant le livre de MacKay hier, je suis tombé sur la déclaration suivante

"[...] il est important de noter que les termes vraisemblance et probabilité ne sont pas synonymes. La quantité P(nb|u,N) est fonction des deux nB et u. Pour fixeu, P(nb|u,N) définit une probabilité sur nB, pour fixe nB, P(nB|u,N) définit la ressemblance de u. "

  • Je comprends cela comme suit: p(A|B) est une probabilité de A sous donné B, donc une fonction probability:A[0,1]. Mais en considérant une valeur donnéeaA et évaluer p(A=a|B)la dépendance de différents bBnous utilisons en fait une fonction différente L:B[0,1].

  • Cette interprétation est-elle correcte?

  • Peut-on alors dire que les méthodes du maximum de vraisemblance pourraient être motivées par le théorème bayésien, où l'a priori est choisi pour être constant?

wirrbel
la source
1
Comme élément de réponse, je vous conseille la réponse avec les liens de Stéphane Laurent dans mathoverflow.net/questions/10971/… . J'espère que cela aide.
peuhp

Réponses:

7

Je pense que la meilleure façon d'expliquer la notion de probabilité est peut-être de considérer un exemple concret. Supposons que je dispose d'un échantillon d'observations IID tirées d'une distribution de Bernoulli avec une probabilité de réussite inconnuep: XiBernoulli(p), i=1,,n, de sorte que la fonction de masse de probabilité conjointe de l'échantillon est

Pr[X=xp]=i=1npxi(1p)1xi.
Cette expression caractérise également la probabilité de , étant donné un échantillon observé : Mais si nous considérons comme une variable aléatoire, cette probabilité n'est pas une densité: Elle est cependant proportionnelle à une densité de probabilité, c'est pourquoi nous disons que c'est une probabilité que soit une valeur particulière compte tenu de l'échantillon - elle représente, dans un certain sens, la plausibilité relative de étant une certaine valeur pour les observations que nous avons faites.px=(x1,,xn)
L(px)=i=1npxi(1p)1xi.
p
p=01L(px)dp1.
pp

Par exemple, supposons et l'échantillon était . Intuitivement, nous conclurions que est plus susceptible d'être plus proche de que de , car nous en avons observé plus. En effet, nous avons Si nous traçons cette fonction sur , nous pouvons voir comment la vraisemblance confirme notre intuition. Bien sûr, nous ne savons pas que la vraie valeur de aurait pu être plutôt que , mais la fonction de vraisemblance nous indique que la première est beaucoup moins probable que la seconde. Mais si nous voulons déterminer une probabilitén=5x=(1,1,0,1,1)p10

L(px)=p4(1p).
p[0,1]pp=0.25p=0.8que se situe dans un certain intervalle, nous devons normaliser la vraisemblance: puisque , il s'ensuit que dans pour obtenir une densité postérieure pour , il faut multiplier par : En fait, ce postérieur est une distribution bêta avec les paramètres . Maintenant, les zones sous la densité correspondent aux probabilités.pp=01p4(1p)dp=130p30
fp(px)=30p4(1p).
a=5,b=2

Donc, ce que nous avons essentiellement fait ici est la règle de Bayes appliquée: Ici, est une distribution antérieure sur le (s) paramètre (s) , le numérateur est la probabilité qui est également la distribution conjointe de

fΘ(θx)=fX(xθ)fΘ(θ)fX(x).
fΘ(θ)θL(θx)=fX(xθ)fΘ(θ)=fX,Θ(x,θ)X,Θ , et le dénominateur est la densité marginale (inconditionnelle) de , obtenue en intégrant la distribution conjointe par rapport à pour trouver la constante de normalisation qui fait de la probabilité une densité de probabilité avec par rapport au (x) paramètre (s). Dans notre exemple numérique, nous avons implicitement pris l'a priori pour que soit uniforme sur . On peut montrer que, pour un échantillon de Bernoulli, si l'a priori est , le postérieur de est aussi Beta, mais avec les paramètres ,XθfΘ[0,1]Beta(a,b)fΘa=a+xib=b+nxi. Nous appelons un tel conjugué antérieur (et nous nous référons à cela comme une paire de conjugués Bernoulli-Beta).
heropup
la source