Dans un groupe d’étudiants, 2 sur 18 sont gauchers. Trouver la distribution postérieure des étudiants gauchers dans la population en supposant que les informations ne sont pas antérieures. Résumez les résultats. Selon la littérature, 5 à 20% des gens sont gauchers. Tenez compte de ces informations dans votre précédent et calculez le nouveau postérieur.
Je sais que la distribution bêta devrait être utilisée ici. Premièrement, avec et valant 1? L'équation que j'ai trouvée dans le matériel pour postérieur est
,
Pourquoi est-ce que dans l'équation? ( indiquant la proportion de gauchers). C'est inconnu, alors comment peut-il en être ainsi? Pour moi, il semble ridicule de calculer avec et d'utiliser dans l'équation donnant . Eh bien, avec l'échantillon le résultat était . Le devrais-je en déduire?
L'équation donnant une valeur attendue de étant donné que et connu fonctionnait mieux et m'a donné ce qui me semble correct. L'équation étant avec la valeur attribuée à et . Quelles valeurs dois-je donner à et à pour prendre en compte les informations préalables?
Quelques conseils seraient très appréciés. Une conférence générale sur les distributions antérieures et postérieures ne me ferait pas de mal non plus. les mathématiques avancées vont probablement voler au-dessus de ma tête.
Réponses:
Permettez-moi d'abord d'expliquer ce qu'est un conjugué avant . J'expliquerai ensuite les analyses bayésiennes à l'aide de votre exemple spécifique. Les statistiques bayésiennes comportent les étapes suivantes:
La base de toutes les statistiques bayésiennes est le théorème de Bayes, qui est
Dans votre cas, la probabilité est binomiale. Si les distributions antérieure et postérieure appartiennent à la même famille, les distributions antérieure et postérieure sont appelées distributions conjuguées . La distribution bêta est un conjugué avant car la partie postérieure est également une distribution bêta. Nous disons que la distribution bêta est la famille conjuguée pour la vraisemblance binomiale. Les analyses conjuguées sont pratiques mais se produisent rarement dans les problèmes du monde réel. Dans la plupart des cas, la distribution postérieure doit être trouvée numériquement via MCMC (en utilisant Stan, WinBUGS, OpenBUGS, JAGS, PyMC ou un autre programme).
Si la distribution de probabilité antérieure ne s'intègre pas à 1, elle est appelée un antériorité impropre . Si elle est intégrée à 1, elle est appelée un antériorité appropriée . Dans la plupart des cas, un préalable inapproprié ne pose pas de problème majeur pour les analyses bayésiennes. La distribution postérieure doit être correcte si, à savoir la partie postérieure doit intégrer à 1.
Ces règles empiriques découlent directement de la nature de la procédure d'analyse bayésienne:
Vous trouverez dans cet article un excellent aperçu de certains a priori "informatifs" et "non informatifs" pour la distribution bêta .
Supposons que votre version bêta précédente est où est la proportion des gauchers. Pour spécifier les paramètres antérieurs et , il est utile de connaître la moyenne et la variance de la distribution bêta (par exemple, si vous souhaitez avoir une certaine moyenne et variance au préalable). La moyenne est . Ainsi, chaque fois que , la moyenne est . La variance de la distribution bêta est . Maintenant, la chose pratique est que vous pouvez penser à etBeta(πLH|α,β) πLH α β π¯LH=α/(α+β) α=β 0.5 αβ(α+β)2(α+β+1) α β comme précédemment observé (pseudo-données), à savoir gauchers et droitiers sur un échantillon (pseudo-) de taille . La distribution correspond à l'uniforme (toutes les valeurs de sont également probables) et équivaut à observer l'observation de deux personnes dont un est gaucher et un droitier.α β neq=α+β Beta(πLH|α=1,β=1) πLH
La distribution bêta postérieure est simplement où est la taille de l'échantillon et le nombre de gauchers qu'il contient. La moyenne postérieure de est donc . Donc pour trouver les paramètres de la distribution beta postérieure, nous ajoutons simplement gaucher à et droitier à . La variance postérieure estBeta(z+α,N−z+β) N z πLH (z+α)/(N+α+β) z α N−z β (z+α)(N−z+β)(N+α+β)2(N+α+β+1) . Notez qu'un préalable très informatif conduit également à une variance plus faible de la distribution postérieure (les graphiques ci-dessous illustrent bien ce point).
Dans votre cas, et et votre prieur est l'uniforme qui n'est pas informatif, donc . Votre distribution postérieure est donc . La moyenne postérieure est . Voici un graphique qui montre le prior, la probabilité des données et le postérieurz=2 N=18 α=β=1 Beta(3,17) π¯LH=3/(3+17)=0.15
Vous voyez que parce que votre distribution précédente est non informative, votre distribution postérieure est entièrement guidée par les données. L’intervalle de densité le plus élevé (IDH) de la distribution postérieure est également représenté. Imaginez que vous placiez votre distribution postérieure dans un bassin 2D et que vous commenciez à remplir d'eau jusqu'à ce que 95% de la distribution se situe au-dessus de la ligne de flottaison. Les points d'intersection de la ligne de flottaison avec la distribution postérieure constituent le DHI à 95%. Chaque point à l'intérieur de l'IDH a une probabilité plus élevée que tout point à l'extérieur. De plus, l'IDH inclut toujours le pic de la distribution postérieure (c.-à-d. Le mode). L'IDH est différent d'un intervalle de confiance à queue égale à 95% où 2,5% de chaque queue de la partie postérieure sont exclus (voir ici ).
Pour votre deuxième tâche, il vous est demandé d’intégrer les informations selon lesquelles 5 à 20% de la population sont des gauchers. Il y a plusieurs façons de le faire. Le moyen le plus simple est de dire que la distribution bêta antérieure devrait avoir une moyenne de soit une moyenne de et . Mais comment choisir et de la distribution beta précédente? Tout d'abord, vous voulez que votre moyenne de la distribution précédente soit de sur un pseudo-échantillon de taille d'échantillon équivalente . Plus généralement, si vous voulez avoir avant une moyenne avec une taille de pseudo-échantillon , le correspondant0.125 0.05 0.2 α β 0.125 neq m neq α et valeurs sont: et . Il ne vous reste plus qu'à choisir la taille du pseudo-échantillon qui détermine votre degré de confiance à l'égard de vos informations antérieures. Supposons que vous êtes très sûr de vos informations antérieures et définissez . Les paramètres de votre distribution antérieure sont les suivants: et . La distribution postérieure est avec une moyenne d’environ ce qui est pratiquement identique à la moyenne précédente deβ α=mneq β=(1−m)neq neq neq=1000 α=0.125⋅1000=125 β=(1−0.125)⋅1000=875 Beta(127,891) 0.125 0.125 . Les informations antérieures dominent l’a posterior (voir le graphique suivant):
Si vous êtes moins sûr des informations antérieures, vous pouvez définir le de votre pseudo-échantillon sur , par exemple, ce qui donne et pour votre distribution bêta antérieure. La distribution postérieure est avec une moyenne d'environ . La moyenne postérieure est maintenant proche de la moyenne de vos données ( ) car les données dépassent les données antérieures. Voici le graphique montrant la situation:neq 10 α=1.25 β=8.75 Beta(3.25,24.75) 0.116 0.111
Une méthode plus avancée d’incorporation des informations antérieures consisterait à dire que le quantile de votre distribution bêta antérieure devrait être d’environ et que le quantile de devrait être d’environ . Cela revient à dire que vous êtes sûr à 95% que la proportion de gauchers dans la population se situe entre 5% et 20%. La fonction du package R calcule les valeurs et d'une distribution bêta correspondant à ces quantiles. Le code est0.025 0.05 0.975 0.2 α β
beta.select
LearnBayes
Il semble qu'une distribution bêta avec les paramètres et ait les propriétés souhaitées. La moyenne précédente est ce qui est proche de la moyenne de vos données ( ). Là encore, cette distribution antérieure incorpore les informations d'un pseudo-échantillon d'une taille d'échantillon équivalente d'environ . La distribution postérieure est avec une moyenne de comparable à la moyenne de l'analyse précédente en utilisant une méthode très informative . Voici le graphique correspondant:α=7.61 β=59.13 7.61/(7.61+59.13)≈0.114 0.111 neq≈7.61+59.13≈66.74 Beta(9.61,75.13) 0.113 Beta(125,875)
Voir aussi cette référence pour un bref aperçu du raisonnement bayésien et une analyse simple. Une introduction plus longue pour les analyses de conjugués, en particulier pour les données binomiales, peut être trouvée ici . Une introduction générale à la pensée bayésienne peut être trouvée ici . Diapositives plus concernant les aspects des statistiques bayésiens sont ici .
la source
Une distribution bêta avec = 1 et = 1 est identique à une distribution uniforme. Donc, en fait, c'est uniforme. Vous essayez de trouver des informations sur un paramètre d'une distribution (dans ce cas, le pourcentage de gauchers dans un groupe de personnes). La formule de Bayes stipule:α β
que vous avez souligné est proportionnel à:
Donc, en gros, vous commencez avec votre conviction antérieure de la proportion de gauchers dans le groupe (P (r), pour laquelle vous utilisez une dist uniforme), puis en considérant les données que vous collectez pour informer votre préexistant (un binôme). dans ce cas, que vous soyez droitier ou gaucher, donc ). Une distribution binomiale a un conjugué beta antérieur, ce qui signifie que la distribution postérieureP(Y1,...,n|r) P(r|Y1,...n) , la distribution du paramètre après avoir considéré les données appartient à la même famille que la précédente. Ici, ce n’est pas inconnu. (et franchement, ce n'était pas avant la collecte des données. Nous avons une assez bonne idée de la proportion de gauchers dans la société.) Vous avez à la fois la distribution précédente (votre hypothèse de r) et vous avez collecté des données et mettre les deux ensemble. Le postérieur est votre nouvelle hypothèse de la distribution des gauchers après avoir considéré les données. Donc, vous prenez la probabilité des données et vous les multipliez par un uniforme. La valeur attendue d'une distribution bêta (c'est ce que l'affiche est) est . Donc, quand vous avez commencé, votre hypothèse avec = 1 etαα+β α β = 1 était que la proportion de gauchers dans le monde était de . Maintenant, vous avez collecté des données qui ont 2 gauchers sur 18. Vous avez calculé un postérieur. (toujours une version bêta) Vos valeurs et sont maintenant différentes, ce qui modifie votre idée de la proportion de gauchers par rapport aux droitiers. Comment cela a-t-il changé?12 α β
la source
Dans la première partie de votre question, il vous est demandé de définir un préalable approprié pour "r". Avec les données binomiales en main, il serait sage de choisir une distribution bêta. Parce qu'alors le postérieur sera une beta. La distribution uniforme étant un cas particulier de la version bêta, vous pouvez choisir avant pour "r" la distribution uniforme, permettant à toutes les valeurs possibles de "r" d'être également probables.
Dans la deuxième partie, vous avez fourni les informations concernant la distribution antérieure "r".
Avec cette réponse en main, la réponse de COOLSerdash vous donnera les indications appropriées.
Merci d’avoir posté cette question et COOLSerdash d’avoir répondu correctement.
la source