Aidez-moi à comprendre les distributions bayésiennes antérieures et postérieures

125

Dans un groupe d’étudiants, 2 sur 18 sont gauchers. Trouver la distribution postérieure des étudiants gauchers dans la population en supposant que les informations ne sont pas antérieures. Résumez les résultats. Selon la littérature, 5 à 20% des gens sont gauchers. Tenez compte de ces informations dans votre précédent et calculez le nouveau postérieur.

Je sais que la distribution bêta devrait être utilisée ici. Premièrement, avec et valant 1? L'équation que j'ai trouvée dans le matériel pour postérieur est $\alpha$ $\beta$

π (r | Y) \propto r^{(Y + - 1)} \times (1 - r)^{(N - Y + - 1)}

$\pi(r \vert Y ) \propto r^{(Y +−1)} \times (1 − r)^{(N−Y +−1)} \\$

$Y=2$ , $N=18$

Pourquoi est-ce que dans l'équation? ( indiquant la proportion de gauchers). C'est inconnu, alors comment peut-il en être ainsi? Pour moi, il semble ridicule de calculer avec et d'utiliser dans l'équation donnant . Eh bien, avec l'échantillon le résultat était . Le devrais-je en déduire? $r$ $r$ $r$ $Y$ $r$ $r$ $r=2/18$ $0,0019$ $f$

L'équation donnant une valeur attendue de étant donné que et connu fonctionnait mieux et m'a donné ce qui me semble correct. L'équation étant avec la valeur attribuée à et . Quelles valeurs dois-je donner à et à pour prendre en compte les informations préalables? $R$ $Y$ $N$ $0,15$ $E(r | X, N, α, β) = (α + X)/(α + β + N)$ $1$ $α$ $β$ $α$ $β$

Quelques conseils seraient très appréciés. Une conférence générale sur les distributions antérieures et postérieures ne me ferait pas de mal non plus. les mathématiques avancées vont probablement voler au-dessus de ma tête.

distributions bayesian prior posterior Bob
la source

Avez-vous examiné cette question et y avoir répondu ?

David Robinson

L'expression " Trouver la distribution postérieure des étudiants gauchers " n'a pas de sens. Les variables aléatoires ont des distributions, et les "étudiants gauchers" ne sont pas une va, je suppose que vous avez l'intention " Recherchez la distribution a posteriori de la proportion d' élèves gauchers ". Il est important de ne pas passer sous silence ces détails, mais d’expliquer clairement ce dont vous parlez.

Glen_b

En fait, en lisant votre question, il me semble que votre problème n'est pas tant les statistiques bayésiennes que la simple compréhension des distributions de probabilité; il est toujours le cas que l'argument d'une fonction de distribution (ou d'une fonction de probabilité comme vous l'avez là) est une fonction d'un inconnu (la variable aléatoire). C'est entièrement le but d'eux.

Glen_b

Les commentaires ne sont pas pour une discussion prolongée; cette conversation a été déplacée pour discuter .

gung

Réponses:

234

Permettez-moi d'abord d'expliquer ce qu'est un conjugué avant . J'expliquerai ensuite les analyses bayésiennes à l'aide de votre exemple spécifique. Les statistiques bayésiennes comportent les étapes suivantes:

Définissez la distribution antérieure qui intègre vos croyances subjectives à propos d'un paramètre (dans votre exemple, le paramètre d'intérêt est la proportion de gauchers). Le prior peut être "non informatif" ou "informatif" (mais il n'y a pas de prior qui n'a pas d'information, voir la discussion ici ).
Recueillir des données.
Mettez à jour votre distribution antérieure avec les données en utilisant le théorème de Bayes pour obtenir une distribution postérieure. La distribution a posteriori est une distribution de probabilité qui représente vos croyances mises à jour concernant le paramètre après avoir vu les données.
Analysez la distribution postérieure et résumez-la (moyenne, médiane, sd, quantiles, ...).

La base de toutes les statistiques bayésiennes est le théorème de Bayes, qui est

p o s t e r i o r \propto p r i o r \times l i k e l i h o o d

$\mathrm{posterior} \propto \mathrm{prior} \times \mathrm{likelihood}$

Dans votre cas, la probabilité est binomiale. Si les distributions antérieure et postérieure appartiennent à la même famille, les distributions antérieure et postérieure sont appelées distributions conjuguées . La distribution bêta est un conjugué avant car la partie postérieure est également une distribution bêta. Nous disons que la distribution bêta est la famille conjuguée pour la vraisemblance binomiale. Les analyses conjuguées sont pratiques mais se produisent rarement dans les problèmes du monde réel. Dans la plupart des cas, la distribution postérieure doit être trouvée numériquement via MCMC (en utilisant Stan, WinBUGS, OpenBUGS, JAGS, PyMC ou un autre programme).

Si la distribution de probabilité antérieure ne s'intègre pas à 1, elle est appelée un antériorité impropre . Si elle est intégrée à 1, elle est appelée un antériorité appropriée . Dans la plupart des cas, un préalable inapproprié ne pose pas de problème majeur pour les analyses bayésiennes. La distribution postérieure doit être correcte si, à savoir la partie postérieure doit intégrer à 1.

Ces règles empiriques découlent directement de la nature de la procédure d'analyse bayésienne:

Si le préalable est non informatif, le postérieur est très déterminé par les données (le postérieur est piloté par les données)
Si le prieur est informatif, le postérieur est un mélange du prieur et des données
Plus les antécédents sont informatifs, plus vous avez besoin de données pour "changer" vos croyances, pour ainsi dire, car les informations postérieures sont très motivées par les informations antérieures.
Si vous avez beaucoup de données, elles domineront la distribution postérieure (elles écraseront la précédente)

Vous trouverez dans cet article un excellent aperçu de certains a priori "informatifs" et "non informatifs" pour la distribution bêta .

Supposons que votre version bêta précédente est où est la proportion des gauchers. Pour spécifier les paramètres antérieurs et , il est utile de connaître la moyenne et la variance de la distribution bêta (par exemple, si vous souhaitez avoir une certaine moyenne et variance au préalable). La moyenne est . Ainsi, chaque fois que , la moyenne est . La variance de la distribution bêta est . Maintenant, la chose pratique est que vous pouvez penser à et $\mathrm{Beta}(\pi_{LH}| \alpha, \beta)$ $\pi_{LH}$ $\alpha$ $\beta$ $\bar{\pi}_{LH}=\alpha/(\alpha + \beta)$ $\alpha =\beta$ $0.5$ $\frac{\alpha\beta}{(\alpha + \beta)^{2}(\alpha + \beta + 1)}$ $\alpha$ $\beta$ comme précédemment observé (pseudo-données), à savoir gauchers et droitiers sur un échantillon (pseudo-) de taille . La distribution correspond à l'uniforme (toutes les valeurs de sont également probables) et équivaut à observer l'observation de deux personnes dont un est gaucher et un droitier. $\alpha$ $\beta$ $n_{eq}=\alpha + \beta$ $\mathrm{Beta}(\pi_{LH} |\alpha=1, \beta=1)$ $\pi_{LH}$

La distribution bêta postérieure est simplement où est la taille de l'échantillon et le nombre de gauchers qu'il contient. La moyenne postérieure de est donc . Donc pour trouver les paramètres de la distribution beta postérieure, nous ajoutons simplement gaucher à et droitier à . La variance postérieure est $\mathrm{Beta}(z + \alpha, N - z +\beta)$ $N$ $z$ $\pi_{LH}$ $(z + \alpha)/(N + \alpha + \beta)$ $z$ $\alpha$ $N-z$ $\beta$ $\frac{(z+\alpha)(N-z+\beta)}{(N+\alpha+\beta)^{2}(N + \alpha + \beta + 1)}$ . Notez qu'un préalable très informatif conduit également à une variance plus faible de la distribution postérieure (les graphiques ci-dessous illustrent bien ce point).

Dans votre cas, et et votre prieur est l'uniforme qui n'est pas informatif, donc . Votre distribution postérieure est donc . La moyenne postérieure est . Voici un graphique qui montre le prior, la probabilité des données et le postérieur $z=2$ $N=18$ $\alpha = \beta = 1$ $Beta(3, 17)$ $\bar{\pi}_{LH}=3/(3+17)=0.15$

Le prior, la probabilité des données et la distribution postérieure avec un préalable uniforme

Vous voyez que parce que votre distribution précédente est non informative, votre distribution postérieure est entièrement guidée par les données. L’intervalle de densité le plus élevé (IDH) de la distribution postérieure est également représenté. Imaginez que vous placiez votre distribution postérieure dans un bassin 2D et que vous commenciez à remplir d'eau jusqu'à ce que 95% de la distribution se situe au-dessus de la ligne de flottaison. Les points d'intersection de la ligne de flottaison avec la distribution postérieure constituent le DHI à 95%. Chaque point à l'intérieur de l'IDH a une probabilité plus élevée que tout point à l'extérieur. De plus, l'IDH inclut toujours le pic de la distribution postérieure (c.-à-d. Le mode). L'IDH est différent d'un intervalle de confiance à queue égale à 95% où 2,5% de chaque queue de la partie postérieure sont exclus (voir ici ).

Pour votre deuxième tâche, il vous est demandé d’intégrer les informations selon lesquelles 5 à 20% de la population sont des gauchers. Il y a plusieurs façons de le faire. Le moyen le plus simple est de dire que la distribution bêta antérieure devrait avoir une moyenne de soit une moyenne de et . Mais comment choisir et de la distribution beta précédente? Tout d'abord, vous voulez que votre moyenne de la distribution précédente soit de sur un pseudo-échantillon de taille d'échantillon équivalente . Plus généralement, si vous voulez avoir avant une moyenne avec une taille de pseudo-échantillon , le correspondant $0.125$ $0.05$ $0.2$ $\alpha$ $\beta$ $0.125$ $n_{eq}$ $m$ $n_{eq}$ $\alpha$ et valeurs sont: et . Il ne vous reste plus qu'à choisir la taille du pseudo-échantillon qui détermine votre degré de confiance à l'égard de vos informations antérieures. Supposons que vous êtes très sûr de vos informations antérieures et définissez . Les paramètres de votre distribution antérieure sont les suivants: et . La distribution postérieure est avec une moyenne d’environ ce qui est pratiquement identique à la moyenne précédente de $\beta$ $\alpha = mn_{eq}$ $\beta = (1-m)n_{eq}$ $n_{eq}$ $n_{eq}=1000$ $\alpha = 0.125\cdot 1000 = 125$ $\beta = (1 - 0.125)\cdot 1000 = 875$ $\mathrm{Beta}(127, 891)$ $0.125$ $0.125$ . Les informations antérieures dominent l’a posterior (voir le graphique suivant):

Le prior, la probabilité des données et la distribution a posteriori avec une forte information préalable

Si vous êtes moins sûr des informations antérieures, vous pouvez définir le de votre pseudo-échantillon sur , par exemple, ce qui donne et pour votre distribution bêta antérieure. La distribution postérieure est avec une moyenne d'environ . La moyenne postérieure est maintenant proche de la moyenne de vos données ( ) car les données dépassent les données antérieures. Voici le graphique montrant la situation: $n_{eq}$ $10$ $\alpha=1.25$ $\beta=8.75$ $\mathrm{Beta}(3.25, 24.75)$ $0.116$ $0.111$

Le prior, la vraisemblance des données et la distribution a posteriori avec beta prior correspondant à une taille de pseudo-échantillon de 3

Une méthode plus avancée d’incorporation des informations antérieures consisterait à dire que le quantile de votre distribution bêta antérieure devrait être d’environ et que le quantile de devrait être d’environ . Cela revient à dire que vous êtes sûr à 95% que la proportion de gauchers dans la population se situe entre 5% et 20%. La fonction du package R calcule les valeurs et d'une distribution bêta correspondant à ces quantiles. Le code est $0.025$ $0.05$ $0.975$ $0.2$ beta.selectLearnBayes $\alpha$ $\beta$

library(LearnBayes)

quantile1=list(p=.025, x=0.05)     # the 2.5% quantile should be 0.05
quantile2=list(p=.975, x=0.2)      # the 97.5% quantile should be 0.2
beta.select(quantile1, quantile2)

[1]  7.61 59.13

Il semble qu'une distribution bêta avec les paramètres et ait les propriétés souhaitées. La moyenne précédente est ce qui est proche de la moyenne de vos données ( ). Là encore, cette distribution antérieure incorpore les informations d'un pseudo-échantillon d'une taille d'échantillon équivalente d'environ . La distribution postérieure est avec une moyenne de comparable à la moyenne de l'analyse précédente en utilisant une méthode très informative . Voici le graphique correspondant: $\alpha = 7.61$ $\beta=59.13$ $7.61/(7.61 + 59.13)\approx 0.114$ $0.111$ $n_{eq}\approx 7.61+59.13 \approx 66.74$ $\mathrm{Beta}(9.61, 75.13)$ $0.113$ $\mathrm{Beta}(125, 875)$

Le prior, la vraisemblance des données et la distribution postérieure avec un a priori qui a 0.05 et 0.975 quantiles de 0.05 et 0.2

Voir aussi cette référence pour un bref aperçu du raisonnement bayésien et une analyse simple. Une introduction plus longue pour les analyses de conjugués, en particulier pour les données binomiales, peut être trouvée ici . Une introduction générale à la pensée bayésienne peut être trouvée ici . Diapositives plus concernant les aspects des statistiques bayésiens sont ici .

COOLSerdash
la source

Pourquoi choisissons-nous la distribution bêta ici?

Métariat

@ Metallica La raison principale est que le Bêta est le conjugué antérieur à la distribution binomiale. Cela signifie que si nous choisissons une version bêta comme version antérieure, la version postérieure sera également la version bêta. Les autres raisons sont que la bêta est comprise entre 0 et 1 et est très flexible. Il comprend l'uniforme, par exemple. Mais toute distribution appropriée avec support dans peut être utilisée comme précédent. C'est juste que le postérieur est plus difficile à calculer.

(0, 1)

$(0,1)$

COOLSerdash

Avez-vous encore le document pour "Introduction à la pensée bayésienne"? Le lien Dropbox est mort.

bs7280

@ bs7280 J'ai mis à jour les liens. Ils devraient travailler à nouveau maintenant.

COOLSerdash

@meduz À proprement parler, il n'y a pas de véritable "non informatif" avant. Je voudrais vous référer à l'excellente réponse de Tim à cette discussion.

COOLSerdash

Une distribution bêta avec = 1 et = 1 est identique à une distribution uniforme. Donc, en fait, c'est uniforme. Vous essayez de trouver des informations sur un paramètre d'une distribution (dans ce cas, le pourcentage de gauchers dans un groupe de personnes). La formule de Bayes stipule: $\alpha$ $\beta$

$P(r|Y_{1,...,n})$ = $\frac{P(Y_{1,...,n}|r)*P(r)}{\int P(Y_{1,...,n}|\theta)*P(r)}$

que vous avez souligné est proportionnel à:

$P(r|Y_{1,...,n})$ $\propto$ $(Y_{1,...,n}|r)*P(r)$

Donc, en gros, vous commencez avec votre conviction antérieure de la proportion de gauchers dans le groupe (P (r), pour laquelle vous utilisez une dist uniforme), puis en considérant les données que vous collectez pour informer votre préexistant (un binôme). dans ce cas, que vous soyez droitier ou gaucher, donc ). Une distribution binomiale a un conjugué beta antérieur, ce qui signifie que la distribution postérieure $P(Y_{1,...,n}|r)$ $P(r|Y_{1,...n})$ , la distribution du paramètre après avoir considéré les données appartient à la même famille que la précédente. Ici, ce n’est pas inconnu. (et franchement, ce n'était pas avant la collecte des données. Nous avons une assez bonne idée de la proportion de gauchers dans la société.) Vous avez à la fois la distribution précédente (votre hypothèse de r) et vous avez collecté des données et mettre les deux ensemble. Le postérieur est votre nouvelle hypothèse de la distribution des gauchers après avoir considéré les données. Donc, vous prenez la probabilité des données et vous les multipliez par un uniforme. La valeur attendue d'une distribution bêta (c'est ce que l'affiche est) est . Donc, quand vous avez commencé, votre hypothèse avec = 1 et $\frac{\alpha}{\alpha+\beta}$ $\alpha$ $\beta$ = 1 était que la proportion de gauchers dans le monde était de . Maintenant, vous avez collecté des données qui ont 2 gauchers sur 18. Vous avez calculé un postérieur. (toujours une version bêta) Vos valeurs et sont maintenant différentes, ce qui modifie votre idée de la proportion de gauchers par rapport aux droitiers. Comment cela a-t-il changé? $\frac{1}{2}$ $\alpha$ $\beta$

Eric Peterson
la source

Dans la première partie de votre question, il vous est demandé de définir un préalable approprié pour "r". Avec les données binomiales en main, il serait sage de choisir une distribution bêta. Parce qu'alors le postérieur sera une beta. La distribution uniforme étant un cas particulier de la version bêta, vous pouvez choisir avant pour "r" la distribution uniforme, permettant à toutes les valeurs possibles de "r" d'être également probables.

Dans la deuxième partie, vous avez fourni les informations concernant la distribution antérieure "r".

Avec cette réponse en main, la réponse de COOLSerdash vous donnera les indications appropriées.

Merci d’avoir posté cette question et COOLSerdash d’avoir répondu correctement.

Nilupa Rupasinghe
la source