Pourquoi le Jeffreys avant est-il utile?

61

Je comprends que le prior de Jeffreys est invariant sous re-paramétrage. Cependant, ce que je ne comprends pas, c'est pourquoi cette propriété est souhaitée.

Pourquoi ne voudriez-vous pas que l’avant change avec un changement de variables?

bayesian prior tskuzzy
la source

3

Intérêt possible: Pourquoi les antécédents de Jeffreys sont-ils considérés comme non informatifs? .

30

Laissez-moi compléter la réponse de Zen. Je n'aime pas beaucoup la notion de "représentation de l'ignorance". L'important n'est pas le précédent de Jeffreys mais le postérieur de Jeffreys . Ce postérieur vise à refléter au mieux les informations sur les paramètres apportés par les données. La propriété d'invariance est naturellement requise pour les deux points suivants. Considérons par exemple le modèle binomial avec le paramètre de proportion inconnu et le paramètre de cotes . $\theta$ $\psi=\frac{\theta}{1-\theta}$

La Jeffreys posterior sur reflète au mieux les informations sur la apportées par les données. Il existe une correspondance biunivoque entre et . Ensuite, la transformation de Jeffreys postérieur sur en postérieure sur (via la formule habituelle de changement de variables) devrait donner une distribution reflétant au mieux les informations sur . Ainsi, cette distribution devrait être la distribution postérieure de Jeffreys sur . C'est la propriété d'invariance. $\theta$ $\theta$ $\theta$ $\psi$ $\theta$ $\psi$ $\psi$ $\psi$
Un point important pour tirer des conclusions d’une analyse statistique est la communication scientifique . Imaginez que vous donniez le Jeffreys postérieur sur à un collègue scientifique. Mais il / elle s'intéresse à plutôt qu'à . Alors ce n’est pas un problème avec la propriété d’invariance: il lui suffit d’appliquer la formule de changement de variables. $\theta$ $\psi$ $\theta$

Stéphane Laurent
la source

Ah ça clarifie un peu les choses. Mais y a-t-il une bonne raison intuitive pour laquelle le paramètre postérieur pour le paramètre odds devrait être identique à celui pour le paramètre proportionnel? Cela me semble plutôt contre nature.

tskuzzy

Ce n'est pas pareil ! L'un est induit par l'autre par la formule de changement de variables. Il existe une correspondance biunivoque entre les deux paramètres. Ensuite, la distribution postérieure sur l'un de ces paramètres devrait induire la distribution postérieure sur l'autre.

Stéphane Laurent

2

(+1) Stéphane. Le PO semble encore confus quand il dit "... devrait être pareil ...". Les deux postérieurs ne sont pas "les mêmes", ce qui se passe, par exemple, dans l'exemple de Stéphane, vous avez cela ; Si vous n'avez pas ce genre de cohérence en utilisant les a priori par défaut (calculés), alors vos a priori sont un peu cinglés.

P {1 / 3 \leq θ \leq 2 / 3 ∣ X = x} = P {1 / 2 \leq ψ \leq 2 ∣ X = x}

$P\{1/3\leq\theta\leq 2/3\mid X=x\}=P\{1/2\leq\psi\leq 2\mid X=x\}$

Zen

1

Je pense que ce qui manque dans cet article, c'est que quand il y a beaucoup d'informations dans les données à propos d'un paramètre, l'antécédent utilisé n'a pas vraiment d'importance. Par exemple, une proportion binomiale, que nous utilisions un uniforme antérieur, jeffreys ou haldane, ne fait que très peu de différence, à moins que la partie postérieure ne soit très large. Dans ce cas, il s’agit d’un argument théorique selon lequel un préalable est "correct" car aucune conclusion significative ne peut être tirée de toute façon. La valeur réelle d'un préalable non informatif réside dans plusieurs dimensions, mais ce problème n'a pas été résolu - le précédent de Jeffreys est mauvais ici.

probabilityislogic

3

Cette théorie est incomplète et dépend du classement des paramètres, du choix de la région compacte et de la fonction de vraisemblance. Donc, il ne respecte pas le principe de probabilité, par exemple. En outre, il est difficile de l'appliquer à des données non indépendantes. De plus, la théorie de Bernardo n'est complète que pour les problèmes de paramètres à une journée. C'est probablement la meilleure méthode disponible actuellement. L’approche du groupe de transformation de Jaynes est un bon concurrent.

probabilityislogic

41

Supposons que vous et un ami analysez le même ensemble de données à l'aide d'un modèle normal. Vous adoptez le paramétrage habituel du modèle normal en utilisant la moyenne et la variance comme paramètres, mais votre ami préfère paramétrer le modèle normal avec le coefficient de variation et la précision comme paramètres (ce qui est parfaitement "légal"). Si vous utilisez tous les deux les a priori de Jeffreys, votre distribution postérieure sera la distribution postérieure de votre ami correctement transformée de son paramétrage en vôtre. C'est en ce sens que le prieur de Jeffreys est "invariant"

(D'ailleurs, "invariant" est un mot horrible; ce que nous voulons vraiment dire, c'est qu'il est "covariant" dans le même sens du calcul tenseur / géométrie différentielle, mais bien sûr, ce terme a déjà un sens probabiliste bien établi, donc nous ne pouvons pas l'utiliser.)

Pourquoi cette propriété de consistance est-elle souhaitée? Parce que, si le prédécesseur de Jeffreys a une chance de représenter l'ignorance sur la valeur des paramètres dans un sens absolu (ce n'est pas le cas, mais pour d'autres raisons non liées à "l'invariance"), et non l'ignorance relative à un paramétrage particulier du modèle, il doit être le cas que, quels que soient les paramétrages avec lesquels nous choisissons arbitrairement de commencer, nos postérieurs doivent "correspondre" après la transformation.

Jeffreys a lui-même violé cette propriété "d'invariance" régulièrement lors de la construction de ses priors.

Ce document a des discussions intéressantes à ce sujet et sur des sujets connexes.

Zen
la source

1

+1: bonne réponse. Mais, pourquoi l’ancien de Jeffreys ne représente-t-il pas une ignorance de la valeur des paramètres?

Neil G

4

Parce que ce n'est même pas une distribution. Il est paradoxal de prétendre qu'une distribution reflète l'ignorance. Une distribution reflète toujours des informations.

Stéphane Laurent

2

Une autre référence: projecteuclid.org/…

Stéphane Laurent

@ StéphaneLaurent: Il faut avoir une certaine croyance , même dans un état d'ignorance totale. Quel que soit votre postérieur, moins la probabilité induite par vos données est la conviction que vous supposez dans cet état d'ignorance. Le principe intuitif qui doit être respecté pour décider de cette croyance est qu’elle devrait être invariante lors de changements d’étiquettes (y compris la reparamétrisation). Je ne suis pas sûr, mais je pense que ce principe seul (dans toutes ses interprétations possibles - entropie maximale, reparamétrisation invariante, etc.) décide toujours de la conviction.

Neil G

Par conséquent, quand on dit "une distribution reflète l'ignorance", cela signifie que la distribution est conforme à ce principe.

Neil G

12

Pour ajouter quelques citations à l'excellente réponse de Zen: Selon Jaynes, le Jeffreys avant est un exemple du principe des groupes de transformation, qui résulte du principe de l'indifférence:

L'essence de ce principe est juste: (1) nous reconnaissons qu'une assignation de probabilité est un moyen de décrire un certain état de connaissance. (2) Si la preuve disponible ne nous donne aucune raison de considérer la proposition plus ou moins probable que , la seule façon honnête de décrire cet état de la connaissance consiste à leur attribuer des probabilités égales: . Toute autre procédure serait incohérente en ce sens que, par un simple échange des étiquettes nous pourrions alors générer un nouveau problème dans lequel notre état des connaissances est le même mais dans lequel nous attribuons des probabilités différentes… $A_1$ $A_2$ $p_1=p_2$ $(1, 2)$

Maintenant, pour répondre à votre question: "Pourquoi ne voudriez-vous pas que l’antérieur change avant un changement de variables?"

Selon Jaynes, la paramétrisation est un autre type d'étiquette arbitraire, et il ne faut pas pouvoir “en échangeant simplement les étiquettes pour générer un nouveau problème dans lequel notre état des connaissances est le même mais dans lequel nous attribuons des probabilités différentes. ”

Neil G
la source

2

Jaynes me semble un peu mystique.

Stéphane Laurent

@ StéphaneLaurent: Peut-être que j'étais trop facilement converti alors! Mais, j'ai trouvé cela très convaincant: ET Jaynes, «Où en sommes-nous sur Maximum Entropy?», Dans The Maximum Entropy Formalism, R. Levine et M. Tribus, Eds. Cambridge, MA, États-Unis d'Amérique: The MIT Press, 1979, p. 15–118.

Neil G

2

Xian a reçu un courrier faisant l'éloge de Jaynes: ceremade.dauphine.fr/~xian/critic.html C'est dommage si vous ne lisez pas le français, ce courrier est à la fois effrayant et drôle. L'écrivain semble être devenu fou en pensant trop aux statistiques bayésiennes;)

Stéphane Laurent

1

@ StéphaneLaurent: À lire maintenant. C'est tout à fait vrai: "si vous affirmez en page 508" la non répétabilité de la plupart des expériences "à quoi bon ensuite" à la recherche de procédures féquentistes optimales "en page 512? comment le "choix Bayésien", veut-il être le paradigme de tout problème inférentiel, n'est-ce pas, peut-il se réconcilier avec le fréquentisme (p. 517-518)? pour toute une probabilité n'est jamais une fréquence! "

Neil G

1

Aussi: "Le Principe du Maximum d'Entropie est-il absolument fondamental? Qu'est-ce que c'est essentiel? Qu'est-ce que vous voulez?" Théorie de l’information, Mécanique Statistique, Thermodynamique… "décrit également ma position. Cependant, contrairement à l'écrivain, je n'ai aucun intérêt à consacrer des heures à convaincre les autres d'accepter ce que je trouve si naturel.

Neil G

4

Bien qu’il soit souvent intéressant, ne fût-ce que pour établir une référence préalable sur laquelle jauger d’autres a priori, l’a priori de Jeffreys peut s’avérer totalement inutile, comme par exemple lorsqu’il aboutit à des postérieurs impropres: c’est le cas par exemple du simple mélange gaussien à deux composants avec tous les paramètres inconnus. Dans ce cas, le postérieur du précédent de Jeffreys n'existe pas, quel que soit le nombre d'observations disponibles. (La preuve est disponible dans un article récent que j'ai écrit avec Clara Grazian.)

p N (μ_{0}, σ_{0}^{2}) + (1 - p) N (μ_{1}, σ_{1}^{2})

$p\mathcal{N}(\mu_0,\sigma_0^2)+(1-p)\mathcal{N}(\mu_1,\sigma_1^2)$

Xi'an
la source

-2

Jeffreys avant est inutile . Ceci est dû au fait:

Il spécifie simplement la forme de la distribution; il ne vous dit pas quels devraient être ses paramètres.
Vous n'êtes jamais complètement ignorant - il y a toujours quelque chose dans le paramètre que vous connaissez (par exemple, souvent, cela ne peut pas être l'infini). Utilisez-le pour votre inférence en définissant une distribution antérieure. Ne vous mentez pas en disant que vous ne savez rien.
"Invariance en cours de transformation" n'est pas une propriété souhaitable. Votre probabilité change en cours de transformation (par exemple chez le jacobien). Cela ne crée pas de "nouveaux problèmes", avance Jaynes. Pourquoi le prieur ne devrait-il pas être traité de la même manière?

Juste ne l'utilisez pas.

nca
la source

1

Hein? La probabilité n'est pas une densité et ne changera pas sous la reparamétrisation

innisfree

Pourquoi le Jeffreys avant est-il utile?

Réponses: