Approche plus douce des statistiques bayésiennes

J'ai récemment commencé à lire "Introduction to Bayesian Statistics" 2nd Edition by Bolstad. J'ai eu une classe de statistiques d'introduction qui couvrait principalement des tests statistiques et je suis presque à travers une classe d'analyse de régression. Quels autres livres puis-je utiliser pour compléter ma compréhension de celui-ci?

Je l'ai fait à travers les 100 à 125 premières pages très bien. Ensuite, le livre commence à parler de tests d'hypothèses, ce que je suis très heureux de couvrir, mais il y a quelques choses qui me lancent:

L'utilisation de fonctions de densité de probabilité dans les calculs. En d'autres termes, comment évaluer de telles équations.
Cette phrase entière: "Supposons que nous utilisons un bêta (1,1) avant pour pi. Alors étant donné y = 8, la densité postérieure est bêta (9,3). La probabilité postérieure de l'hypothèse nulle est ..." Je crois beta (1,1) se réfère à un PDF où la moyenne est 1 et le stdev est 1? Je ne comprends pas comment cela changerait en bêta (9,3) en tant que fonction de densité postérieure.

Je comprends le concept des prieurs contre les postérieurs et je comprends comment les appliquer manuellement à l'aide d'un tableau. Je reçois (je pense!) Que pi représente la proportion ou probabilité supposée de la population.

Je ne sais pas comment connecter cela avec des données que je rencontrerais quotidiennement et obtenir des résultats.

hypothesis-testing bayesian Justin Bozonier
la source

Le paramètre

apparaît d'après le contexte comme la probabilité de population d'un modèle binomial. Dans ce cas, une distribution bêta est le conjugué a priori pour une vraisemblance binomiale avec

et inconnu

. Cependant, les paramètres de la distribution bêta ne sont pas la moyenne et l'écart type, comme c'est le cas pour la distribution normale. Regardez la page Wikipedia pour voir la formule de la moyenne et de la variance d'une variable aléatoire bêta en termes de paramètres de la distribution bêta.

π

$\pi$

n

$n$

π

$\pi$

caburke

Je vous remercie! Conjuguer avant est un autre terme qui ne m'est pas familier. Où puis-je en savoir plus à ce sujet au niveau de l'introduction?

Justin Bozonier

Vous pourriez être intéressé par un texte plus pratique, avez-vous vu des méthodes bayésiennes pour les pirates? (Divulgation - Je suis un auteur collaborateur) Essayez de le rechercher (c'est open source et gratuit).

Cam.Davidson.Pilon

@JustinBozonier Ce lien stats.stackexchange.com/questions/66018/… donne quelques explications sur les différents termes que les gens utilisent pour décrire les antérieurs, y compris les antérieurs conjugués.

Sycorax dit Réintégrer Monica

@ Cam.Davidson.Pilon Merci pour cela! La mise à jour des croyances dans les graphiques sur cette page à elle seule m'aide à obtenir plus de ce que disent les autres réponses: nbviewer.ipython.org/urls/raw.github.com/CamDavidsonPilon/…

Justin Bozonier

Réponses:

L'utilisation de fonctions de densité de probabilité dans les calculs. En d'autres termes, comment évaluer de telles équations.

Je pense que vous y pensez toujours d'un point de vue fréquentiste: si vous cherchez une estimation ponctuelle, le postérieur ne vous la donnera pas. Vous mettez des PDF, vous sortez des PDF. Vous pouvez dériver des estimations ponctuelles en calculant des statistiques à partir de votre distribution postérieure, mais j'y reviendrai dans un instant.

Je comprends le concept des prieurs contre les postérieurs et je comprends comment les appliquer manuellement à l'aide d'un tableau. Je reçois (je pense!) Que pi représente la proportion ou probabilité supposée de la population.

est la même chose que : ce sont tous les deux des PDF. est juste conventionnellement utilisé pour indiquer que le PDF particulier est une densité antérieure. $\pi(x)$ $p(x)$ $\pi$

Je soupçonne que vous n'obtenez pas les prieurs et les postérieurs aussi bien que vous le pensez, alors revenons à la base fondamentale des statistiques bayésiennes: la probabilité subjective .

Une expérience de réflexion sur la probabilité subjective

Disons que je vous présente une pièce et vous demande si vous pensez ou non que cette pièce est une pièce équitable. Vous avez entendu beaucoup de gens parler de pièces de monnaie déloyales dans la classe de probabilité, mais vous n'en avez jamais vu dans la vraie vie, alors vous répondez: "Oui, bien sûr, je pense que c'est une pièce de monnaie équitable." Mais, le fait que je vous pose même cette question vous décourage un peu, donc même si vous pensez que c'est juste, vous ne seriez pas vraiment surpris si ce n'était pas le cas. Beaucoup moins surpris que si vous trouviez cette pièce dans votre monnaie (car vous supposez que tout cela est de la vraie monnaie, et vous ne me faites pas vraiment confiance en ce moment car je me méfie).

Maintenant, nous exécutons quelques expériences. Après 100 flips, la pièce rend 53 têtes. Vous êtes beaucoup plus confiant que c'est une pièce équitable, mais vous êtes toujours ouvert à la possibilité que ce ne soit pas le cas. La différence est que maintenant vous seriez assez surpris si cette pièce s'avérait avoir une sorte de biais.

Comment pouvons-nous représenter ici vos croyances antérieures et postérieures, en particulier en ce qui concerne la probabilité que la pièce montre des têtes (que nous désignerons )? Dans un contexte fréquentiste, votre croyance antérieure - votre hypothèse nulle - est que . Après avoir exécuté l'expérience, vous n'êtes pas en mesure de rejeter la valeur nulle, et vous continuez donc avec l'hypothèse que oui, la pièce est probablement juste. Mais comment résumer le changement de votre confiance $\theta$ $\theta = 0.5$ que la pièce est juste? Après l'expérience, vous êtes en mesure de parier que la pièce est juste, mais avant l'expérience, vous auriez été trépidant.

$\theta = 0.5$ $\theta \sim N(0.5, \sigma^2)$ $\theta= 0.5$ $\theta=0.5$ $\theta=0.5$

Alors, comment faisons-nous des calculs?

Nous commençons avec les PDF et nous terminons avec les PDF. Lorsque vous devez déclarer une estimation ponctuelle, vous pouvez calculer des statistiques telles que la moyenne, la médiane ou le mode de votre distribution postérieure (en fonction de votre fonction de perte, dans laquelle je n'entrerai pas maintenant. Restons simplement avec la moyenne). Si vous avez une solution de formulaire fermé pour votre PDF, il sera probablement trivial de déterminer ces valeurs. Si le postérieur est compliqué, vous pouvez utiliser des procédures telles que MCMC pour échantillonner à partir de votre postérieur et dériver des statistiques de l'échantillon que vous avez dessiné.

Dans l'exemple où vous avez une probabilité bêta antérieure et une probabilité binomiale, le calcul du postérieur se réduit à un calcul très net. Donné:

$\theta \sim Beta(\alpha, \beta)$
$X|\theta \sim Binomial(\theta)$

Ensuite, le postérieur se réduit à:

$\theta|X \sim Beta(\alpha + \sum_{i=1}^n x_i,\, \beta + n - \sum_{i=1}^n x_i)$

Cela se produira à chaque fois que vous avez une version bêta antérieure et une probabilité binomiale, et la raison pour laquelle cela devrait être évident dans les calculs fournis par DJE . Lorsqu'un modèle de probabilité a priori donné donne toujours un postérieur qui a le même type de distribution que l'a priori, la relation entre les types de distributions utilisés pour l'a priori et la vraisemblance est appelée conjugué . Il existe de nombreuses paires de distributions qui ont des relations conjuguées, et la conjugaison est très souvent mise à profit par les Bayésiens pour simplifier les calculs. Étant donné une probabilité particulière, vous pouvez vous faciliter la vie en sélectionnant un antécédent conjugué (s'il en existe un et vous pouvez justifier votre choix d'antériorité).

Je crois que la bêta (1,1) fait référence à un PDF où la moyenne est 1 et le stdev est 1?

Dans le paramétrage commun de la distribution normale, les deux paramètres signifient la moyenne et l'écart type de la distribution. Mais c'est ainsi que nous paramétrons la distribution normale. D'autres distributions de probabilité sont paramétrées très différemment.

$Beta(\alpha, \beta)$ $\alpha$ $\beta$

\begin{aligned} X & \sim B e t a (α, β) \\ E [X] & = \frac{α}{α + β} \\ var [X] & = \frac{α β}{(α + β)^{2} (α + β + 1)} \end{aligned}

$\begin{equation} \begin{split} X &\sim Beta(\alpha, \beta) \\ \operatorname{E}[X] &= \frac{\alpha}{\alpha + \beta} \\ \operatorname{var}[X] &= \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} \end{split} \end{equation}$

Comme vous pouvez le voir clairement, la moyenne et la variance ne font pas partie du paramétrage de cette distribution, mais elles ont des solutions de forme fermée qui sont de simples fonctions des paramètres d'entrée.

$Beta(1,1)$ $Uniform(0,1)$

David Marx
la source

La chose clé que votre réponse m'a donnée était la prise de conscience que la recherche d'une valeur unique était l'endroit où je me suis accroché. Une fois que j'ai commencé à penser en termes de distributions, le texte de Kruschke et tout le reste ont commencé à avoir beaucoup plus de sens. Je vous remercie!

Justin Bozonier

$p(\theta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}$ $(\alpha, \beta)=(1,1)$

Le bêta a priori avec une vraisemblance binomiale (nombre fixe d'essais avec des résultats binaires et des probabilités fixes de succès / échec) a la propriété de la conjugaison, ce qui permet au postérieur (le produit de l'a priori et de la probabilité) d'être écrit sous forme fermée:

\begin{aligned} p (θ | y) & = \frac{p (y | θ) p (θ)}{p (y)} \\ \propto \frac{Γ (α) Γ (β)}{Γ (α + β)} θ^{α - 1} (1 - θ)^{β - 1} * (\binom{n}{y}) θ^{y} (1 - θ)^{n - y} \\ \propto θ^{α - 1} (1 - θ)^{β - 1} * θ^{y} (1 - θ)^{n - y} \\ \propto θ^{α + y - 1} (1 - θ)^{β + n - y - 1} \\ = \frac{Γ (α + y - 1) Γ (β + n - y - 1)}{Γ (α + β + n - 1)} θ^{α + y - 1} (1 - θ)^{β + n - y - 1} \end{aligned}

$\begin{equation} \begin{split} p(\theta|y) &= \frac{p(y|\theta)p(\theta)}{p(y)} \\ ~\\ ~\\ &\propto\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}*\binom{n}{y}\theta^y(1-\theta)^{n-y} \\ ~\\ ~\\ &\propto\theta^{\alpha-1}(1-\theta)^{\beta-1}*\theta^y(1-\theta)^{n-y} \\ ~\\ &\propto\theta^{\alpha+y-1}(1-\theta)^{\beta+n-y-1} \\ ~\\ &=\frac{\Gamma(\alpha+y-1)\Gamma(\beta+n-y-1)}{\Gamma(\alpha+\beta+n-1)}\theta^{\alpha+y-1}(1-\theta)^{\beta+n-y-1} \end{split} \end{equation}$

$\theta$

Cette expression de forme fermée est pratique, mais en aucun cas nécessaire. La multiplication des densités de probabilité peut se faire de la même manière que la multiplication d'autres expressions mathématiques; les difficultés arrivent car de nombreux produits de densités ne sont pas aussi facilement réécrits que la vraisemblance a priori / binomiale bêta. Heureusement, c'est là que les ordinateurs prennent le relais.

Sycorax dit de réintégrer Monica
la source

Si vous cherchez une approche plus douce, je peux fortement recommander le livre de Kruschke qui utilise R pour expliquer les concepts de base. C'est une approche très pratique et pratique de l'apprentissage des statistiques bayésiennes et sur son site Web vous pouvez trouver tous les codes utilisés.

Quelqu'un m'a également recommandé le texte de Cam.Davidson.Pilon, je ne l'ai pas encore regardé mais il peut être trouvé ici .

horseoftheyear
la source

Merci! En fait, je possède déjà le livre de Kruschke et je suis juste revenu le réviser et j'ai réalisé que c'était exactement ce dont j'avais besoin en ce moment. Merci pour le pointeur!

Justin Bozonier

@JustinBozonier Je recommande également fortement l' introduction à la théorie des statistiques (humeur) . Il fournit un niveau de rigueur relativement élevé, mais suppose seulement que vous connaissez le calcul très basique.

Steve P.