Quelle est la relation derrière Jeffreys Priors et une transformation stabilisatrice de variance?

Je lisais sur le Jeffreys prior sur wikipedia: Jeffreys Prior et j'ai vu qu'après chaque exemple, il décrit comment une transformation stabilisatrice de variance transforme le Jeffreys prior en un prior uniforme.

À titre d'exemple, pour le cas de Bernoulli, il indique que pour une pièce de monnaie qui est têtes avec probabilité $\gamma \in [0,1]$ , le modèle d'essai de Bernoulli donne que le Jeffreys a priori pour le paramètre $\gamma$ est:

p (γ) \propto \frac{1}{\sqrt{γ (1 - γ)}}

$p(\gamma) \propto \frac{1}{\sqrt{\gamma ( 1-\gamma)}}$

Il indique ensuite qu'il s'agit d'une distribution bêta avec $\alpha = \beta = \frac{1}{2}$ . Il indique également que si $\gamma = \sin^2(\theta)$ , alors la priorité de Jeffreys pour $\theta$ est uniforme dans l'intervalle $\left[0, \frac{\pi}{2}\right]$ .

Je reconnais la transformation comme celle d'une transformation stabilisatrice de variance. Ce qui m'embrouille c'est:

Pourquoi une transformation stabilisant la variance donnerait-elle un a priori uniforme?
Pourquoi voudrions-nous même un uniforme avant? (car il semble qu'il soit plus susceptible d'être inapproprié)

En général, je ne sais pas trop pourquoi la transformation sinusoïdale est donnée et quel rôle joue. Quelqu'un aurait-il des idées?

bayesian prior jeffreys-prior user1398057
la source

Je vais m'exprimer en tant que charlatan autodidacte en posant cette question, mais: à quelle transformation stabilisatrice de variance faites-vous référence?

\frac{1}{\sqrt{\sin^{2} (θ) (1 - \sin^{2} (θ))}}

$\frac{1}{\sqrt{\sin^2(\theta) \left( 1 - \sin^2(\theta) \right)}}$ ?

shadowtalker

Le sinus carré est classiquement la mauvaise façon de penser à la transformation.

est la racine carrée d'arc sinus ou la transformation angulaire.

θ = arcsin \sqrt[]{γ}

$\theta = \text{arcsin} \root \of \gamma$

Nick Cox

Réponses:

Le prieur de Jeffreys est invariant sous reparamétrisation. Pour cette raison, de nombreux bayésiens le considèrent comme un «prieur non informatif». (Hartigan a montré qu'il y a tout un espace de ces a priori pour où est l'a priori de Jeffreys et est l'a priori asymptotiquement localement invariant de Hartigan. - Distributions a priori invariantes ) $J^\alpha H^\beta$ $\alpha + \beta=1$ $J$ $H$

C'est un mensonge souvent répété que le prior uniforme n'est pas informatif, mais après une transformation arbitraire de vos paramètres, et un prior uniforme sur les nouveaux paramètres signifie quelque chose de complètement différent. Si un changement arbitraire de paramétrage affecte votre a priori, alors votre a priori est clairement informatif.

L'utilisation de Jeffreys est, par définition , équivalente à l'utilisation d'un aplat avant d'appliquer la transformation stabilisatrice de variance.
D'un point de vue mathématique, l'utilisation de l'a priori de Jeffreys et l'utilisation d'un a priori plat après l'application de la transformation stabilisatrice de la variance sont équivalentes. D'un point de vue humain, ce dernier est probablement plus agréable car l'espace des paramètres devient "homogène" dans le sens où les différences sont toutes les mêmes dans toutes les directions, peu importe où vous vous trouvez dans l'espace des paramètres.

Prenons l'exemple de Bernoulli. N'est-ce pas un peu bizarre que marquer 99% sur un test soit la même distance à 90% que 59% à 50%? Après votre transformation stabilisatrice de variance, la paire précédente est plus séparée, comme il se doit. Cela correspond à notre intuition sur les distances réelles dans l'espace. (Mathématiquement, la transformation stabilisatrice de variance rend la courbure de la perte de log égale à la matrice d'identité.)

Neil G
la source

1. Je conviens qu'un a priori uniforme ne signifie pas un a priori "non informatif", mais mon commentaire sur le fait de ne pas évaluer une certaine valeur par rapport à une autre valeur est toujours valable (dans le cadre de ce paramétrage particulier). 2. La propreté d'un prieur est très préoccupante . Si vous avez un antécédent incorrect et que vous avez des données, il n'est pas garanti que vous ayez un bon postérieur. C'est donc très préoccupant.

Greenparker

1. Mais c'est là tout l'intérêt: la paramétrisation est arbitraire, il est donc inutile de dire que vous ne valorisez pas une valeur par rapport à une autre. 2. En pratique, je ne l'ai jamais trouvé inquiétant. Cela pourrait inquiéter d'autres personnes, je suppose.

Neil G

1. Bon point. 2. Je ne sais pas quels problèmes vous traitez, mais même la simple probabilité gaussienne avec un a priori de Jeffreys peut avoir un postérieur incorrect. Voir ma réponse ici .

Greenparker

@ Greenparker Vous avez raison. Je vais préciser pourquoi cela ne me concerne pas dans ma réponse.

Neil G

Je ne pense pas que l'édition soit correcte. Si le postérieur est incorrect, alors MCMC est très certainement absurde puisque vous essayez de puiser dans une distribution non définie. Imaginez que vous essayez d'échantillonner à partir d'uniforme

utilisant n'importe quel schéma d'échantillonnage. Bien que l'algorithme MCMC puisse toujours être ergodique (lorsque vous avez une récurrence nulle), mais vos échantillons seront inutiles.

(0, \infty)

$(0,\infty)$

Greenparker

La page Wikipedia que vous avez fournie n'utilise pas vraiment le terme de «transformation stabilisatrice de variance». Le terme "transformation stabilisant la variance" est généralement utilisé pour indiquer des transformations qui font de la variance de la variable aléatoire une constante. Bien que dans le cas de Bernoulli, c'est ce qui se passe avec la transformation, ce n'est pas exactement le but. Le but est d'obtenir une distribution uniforme, et pas seulement une variance stabilisant celle-ci.

Rappelons que l'un des principaux objectifs de l'utilisation de Jeffreys a priori est qu'il est invariant en cours de transformation. Cela signifie que si vous re-paramétrez la variable, l'a priori ne changera pas.

Les Jeffreys dans ce cas Bernoulli, comme vous l' avez dit, est une version bêta . $(1/2, 1/2)$

p_{γ} (γ) \propto \frac{1}{\sqrt{γ (1 - γ)}} .

$p_{\gamma}(\gamma) \propto \dfrac{1}{\sqrt{\gamma(1-\gamma)}}.$

En reparamétrisant avec , nous pouvons trouver la distribution de . Voyons d'abord que $\gamma = \sin^2(\theta)$ $\theta$ , et depuis,. Rappelons que. $\theta = \arcsin(\sqrt{\gamma})$ $0 < \gamma < 1$ $0 < \theta < \pi/2$ $\sin^2(x) + \cos^2(x) = 1$

\begin{aligned} F_{θ} (X) & = P (θ < X) \\ = P ({péché}^{2} (θ) < {péché}^{2} (X)) \\ = P (γ < {péché}^{2} (X)) \\ = F_{γ} ({péché}^{2} (X)) \\ F_{θ} (X) & = \frac{ré F_{γ} ({péché}^{2} (X)}{ré X} \\ = 2 péché (X) \cos (X) p_{γ} ({péché}^{2} (X)) \\ \propto péché (X) \cos (X) \frac{1}{\sqrt{{péché}^{2} (X) (1 - {péché}^{2} (X))}} \\ = 1. \end{aligned}

$\begin{align*} F_{\theta}(x) & = P(\theta < x)\\ & = P(\sin^2(\theta) < \sin^2(x))\\ & = P(\gamma < \sin^2(x))\\ & = F_{\gamma}(\sin^2(x))\\ f_{\theta}(x) & = \dfrac{d F_{\gamma}(\sin^2(x)}{d x}\\ & = 2\sin(x)\cos(x)\,p_{\gamma}(\sin^2(x))\\ & \propto \sin(x)\cos(x) \dfrac{1}{\sqrt{\sin^2(x)(1 - \sin^2(x))}}\\ & =1. \end{align*}$

$\theta$ $(0, \pi/2)$ $\sin^2(\theta)$ $\theta$

q (θ | X) \propto F (X | θ) F (θ) \propto F (X | θ) .

$q(\theta|x) \propto f(x|\theta) f(\theta) \propto f(x|\theta).$

$(0, \pi/2)$

Greenparker
la source

Cette idée que vous «ne vous engagez à aucune valeur» en utilisant un a priori diffus est fausse. La preuve en est que vous pouvez prendre n'importe quelle transformation de l'espace et le prior diffus signifiera quelque chose de complètement différent.

Neil G

Mon commentaire sur "ne s'engager sur aucune valeur" se réfère uniquement à ce paramétrage particulier. Bien sûr, les transformations changeront la façon dont la masse est distribuée (tout comme dans cet exemple de Bernoulli).

Greenparker

Comme je l'ai dit ci-dessous votre autre commentaire, la paramétrisation est arbitraire, c'est pourquoi la déclaration «ne s'engager à aucune valeur» n'a pas de sens.

Neil G