Supposons que j'obtienne des échantillons d'une distribution binomiale. Une façon de modéliser mes connaissances antérieures est d'utiliser une distribution bêta avec les paramètres et . Si je comprends bien, cela équivaut à avoir vu des "têtes" \ alpha fois dans des essais \ alpha + \ bêta . En tant que tel, un bon raccourci pour faire l'inférence bayésienne complète consiste à utiliser \ frac {h + \ alpha} {n + \ alpha + \ beta} comme ma nouvelle moyenne pour la probabilité de "têtes" après avoir vu h têtes dans n essais .
Supposons maintenant que j'ai plus de deux états, donc je vais obtenir des échantillons d'une distribution multinomiale. Supposons que je veuille utiliser une distribution de Dirichlet avec le paramètre comme priorité. Encore une fois, en tant que raccourci, je peux traiter cela comme une connaissance préalable de la probabilité de l'événement comme étant équivalente à , et si je suis témoin de l'événement fois dans essais, ma postérieure pour devient .
Maintenant, dans le cas binomial, il ressort que la connaissance préalable des "têtes" survenant fois dans essais \ alpha + \ bêta équivaut à "queues" survenant temps sur essais \ alpha + \ bêta . Logiquement, je ne pense pas pouvoir mieux connaître la vraisemblance des «têtes» que celle des «queues». Cela devient cependant plus intéressant avec plus de deux résultats. Si je dis un dé à 6 faces, je peux imaginer ma connaissance préalable du côté "1" équivalente à 10 unités dans 50 essais et ma connaissance antérieure du côté "2" comme étant équivalente à 15 deux en 100 essais.
Donc, après toute cette introduction, ma question est de savoir comment je peux correctement modéliser ces connaissances antérieures asymétriques dans le cas multinomial? Il semble que si je ne fais pas attention, je peux facilement obtenir des résultats illogiques car la probabilité / vraisemblance totale ne résume pas à 1. Y a-t-il un moyen de continuer à utiliser le raccourci Dirichlet, ou dois-je tout sacrifier et utiliser certains autre distribution antérieure entièrement?
Veuillez pardonner toute confusion causée par des abus potentiels dans la notation ou la terminologie ci-dessus.
la source
If I have say a 6-sided die, I can imagine my prior knowledge of side "1" being equivalent to 10 ones in 50 trials and my prior knowledge of side "2" as being equivalent to 15 twos in 100 trials.
Y a-t-il une raison particulière pour laquelle vous ne souhaitez pas unifier vos «tailles d'échantillon équivalentes» pour « » et « » (à savoir et ) en utilisant leur multiple le moins commun? Dans ce cas, et .Réponses:
Vous avez très bien cadré votre question.
Je pense que ce que vous recherchez ici est un cas de modélisation hiérarchique. Et vous voudrez peut-être modéliser plusieurs couches de hiérarchie (pour le moment, vous ne parlez que de prieurs). Le fait d'avoir une autre couche d'hyper-priors pour les hyper-paramètres vous permet de modéliser les variabilités supplémentaires des hyper-paramètres (car vous êtes préoccupé par les problèmes de variabilité des hyper-paramètres). Cela rend également votre modélisation flexible et robuste (peut être plus lente).
Plus précisément dans votre cas, vous pouvez bénéficier d'avoir des priors pour les paramètres de distribution de Dirichlet (la bêta est un cas spécial). Cet article de Gelman explique comment imposer des a priori aux paramètres de la distribution de Dirichlet. Il cite également l'un de ses articles dans une revue de toxicologie.
la source