Je lisais sur le Jeffreys prior sur wikipedia: Jeffreys Prior et j'ai vu qu'après chaque exemple, il décrit comment une transformation stabilisatrice de variance transforme le Jeffreys prior en un prior uniforme.
À titre d'exemple, pour le cas de Bernoulli, il indique que pour une pièce de monnaie qui est têtes avec probabilité , le modèle d'essai de Bernoulli donne que le Jeffreys a priori pour le paramètre est:
Il indique ensuite qu'il s'agit d'une distribution bêta avec . Il indique également que si, alors la priorité de Jeffreys pourest uniforme dans l'intervalle .
Je reconnais la transformation comme celle d'une transformation stabilisatrice de variance. Ce qui m'embrouille c'est:
Pourquoi une transformation stabilisant la variance donnerait-elle un a priori uniforme?
Pourquoi voudrions-nous même un uniforme avant? (car il semble qu'il soit plus susceptible d'être inapproprié)
En général, je ne sais pas trop pourquoi la transformation sinusoïdale est donnée et quel rôle joue. Quelqu'un aurait-il des idées?
la source
Réponses:
Le prieur de Jeffreys est invariant sous reparamétrisation. Pour cette raison, de nombreux bayésiens le considèrent comme un «prieur non informatif». (Hartigan a montré qu'il y a tout un espace de ces a priori pour α + β = 1 où J est l'a priori de Jeffreys et H est l'a priori asymptotiquement localement invariant de Hartigan. - Distributions a priori invariantes )JαHβ α+β=1 J H
C'est un mensonge souvent répété que le prior uniforme n'est pas informatif, mais après une transformation arbitraire de vos paramètres, et un prior uniforme sur les nouveaux paramètres signifie quelque chose de complètement différent. Si un changement arbitraire de paramétrage affecte votre a priori, alors votre a priori est clairement informatif.
L'utilisation de Jeffreys est, par définition , équivalente à l'utilisation d'un aplat avant d'appliquer la transformation stabilisatrice de variance.
D'un point de vue mathématique, l'utilisation de l'a priori de Jeffreys et l'utilisation d'un a priori plat après l'application de la transformation stabilisatrice de la variance sont équivalentes. D'un point de vue humain, ce dernier est probablement plus agréable car l'espace des paramètres devient "homogène" dans le sens où les différences sont toutes les mêmes dans toutes les directions, peu importe où vous vous trouvez dans l'espace des paramètres.
Prenons l'exemple de Bernoulli. N'est-ce pas un peu bizarre que marquer 99% sur un test soit la même distance à 90% que 59% à 50%? Après votre transformation stabilisatrice de variance, la paire précédente est plus séparée, comme il se doit. Cela correspond à notre intuition sur les distances réelles dans l'espace. (Mathématiquement, la transformation stabilisatrice de variance rend la courbure de la perte de log égale à la matrice d'identité.)
la source
La page Wikipedia que vous avez fournie n'utilise pas vraiment le terme de «transformation stabilisatrice de variance». Le terme "transformation stabilisant la variance" est généralement utilisé pour indiquer des transformations qui font de la variance de la variable aléatoire une constante. Bien que dans le cas de Bernoulli, c'est ce qui se passe avec la transformation, ce n'est pas exactement le but. Le but est d'obtenir une distribution uniforme, et pas seulement une variance stabilisant celle-ci.
Rappelons que l'un des principaux objectifs de l'utilisation de Jeffreys a priori est qu'il est invariant en cours de transformation. Cela signifie que si vous re-paramétrez la variable, l'a priori ne changera pas.
1.
Les Jeffreys dans ce cas Bernoulli, comme vous l' avez dit, est une version bêta . p γ ( γ ) ∝ 1( 1 / 2 , 1 / 2 )
En reparamétrisant avec , nous pouvons trouver la distribution de θ . Voyons d'abord que θ = arcsin ( √γ= péché2( θ ) θ , et depuis0<γ<1,0<θ<π/2. Rappelons quesin2(x)+cos2(x)=1.
F θ ( x )θ = arcsin( γ--√) 0 < γ< 1 0 < θ < π/ 2 péché2( x ) + cos2( x ) = 1
2.
la source