Quelle est la relation entre la taille de l'échantillon et l'influence de l'a priori sur le postérieur?

17

Si nous avons un petit échantillon, la distribution antérieure influencera-t-elle beaucoup la distribution postérieure?

toby j
la source
5
L'intuition est claire: plus vous avez de données, moins vous devez vous fier à vos prieurs. Pas seulement une leçon de statistiques, mais une leçon de vie! ;)
Lucas Reis

Réponses:

27

Oui. La distribution postérieure d'un paramètre , étant donné un ensemble de données X peut être écrite commeθX

p(θ|X)p(X|θ)likelihoodp(θ)prior

ou, comme cela est plus couramment affiché sur l'échelle logarithmique,

log(p(θ|X))=c+L(θ;X)+log(p(θ))

La log-vraisemblance, , est proportionnelle à la taille de l'échantillon , car elle est fonction des données, contrairement à la densité antérieure. Par conséquent, à mesure que la taille de l'échantillon augmente, la valeur absolue de L ( θ ; X ) devient plus grande tandis que log ( p ( θ ) ) reste fixe (pour une valeur fixe de θ ), donc la somme L ( θ ; X )L(θ;X)=log(p(X|θ))L(θ;X)log(p(θ))θ devient plus fortement influencé par L ( θ ; X ) à mesure que la taille de l'échantillon augmente.L(θ;X)+log(p(θ))L(θ;X)

Par conséquent, pour répondre directement à votre question - la distribution antérieure devient de moins en moins pertinente à mesure qu'elle est dépassée par la probabilité. Ainsi, pour une petite taille d'échantillon, la distribution antérieure joue un rôle beaucoup plus important. Cela est conforme à l'intuition, car vous vous attendez à ce que les spécifications antérieures jouent un rôle plus important lorsqu'il n'y a pas beaucoup de données disponibles pour les réfuter, alors que si la taille de l'échantillon est très grande, le signal présent dans les données l'emportera sur tout ce qui a priori les croyances ont été intégrées au modèle.

Macro
la source
6
+1 Notez que dépend également de n . cn
20

Voici une tentative pour illustrer le dernier paragraphe de l'excellente réponse (+1) de Macro. Il montre deux a priori pour le paramètre dans la distribution B i n o m i a l ( n , p ) . Pour quelques n différents , les distributions postérieures sont affichées lorsque x = n / 2 a été observé. Comme n croît, les dents postérieures deviennent de plus en plus concentrée autour de 1 / 2 .pBinomial(n,p)nx=n/2n1/2

Pour la différence est assez grande, mais pour n = 50, il n'y a pratiquement pas de différence.n=2n=50

Les deux prieurs ci - dessous sont (noir) et B e t un ( 2 , 2 ) (rouge). Les postérieurs ont les mêmes couleurs que les prieurs dont ils sont dérivés.Beta(1/2,1/2)Beta(2,2)

Posterior distributions

(Notez que pour de nombreux autres modèles et autres priors, ne sera pas suffisant pour que le précédent ne compte pas!)n=50

MånsT
la source
4
Illustrations très cool, @ MånsT. J'ai mis en italique les mots «Beta» et «Binomial» dans votre réponse - j'espère que cela ne vous dérange pas.
Macro
Bien sûr que non, @Macro! Je suis d'accord que ça a l'air mieux de cette façon.
MånsT