Qu'est-ce qui est si cool dans le théorème de représentation de De Finetti?

De la théorie de la statistique par Mark J. Schervish (page 12):

Bien que le théorème de représentation 1.49 de DeFinetti soit essentiel à la motivation des modèles paramétriques, il n'est pas réellement utilisé dans leur mise en œuvre.

Comment le théorème est-il au cœur des modèles paramétriques?

probability modeling mathematical-statistics parametric gui11aume
la source

Je pense que c'est au cœur des modèles bayésiens. Je discutais de cela avec singleton. Son importance dans la statistique bayésienne est négligée, sauf par les bayésiens qui étaient adeptes de deFinetti. Voir cette référence de Diaconis et Freedman de 1980

Michael Chernick

@ cardinal: page 12 (j'ai mis à jour la question).

gui11aume

Notez que Schervish a déclaré "... au centre de modèles paramétriques ...".

motivating

$\textbf{motivating}$

Zen

Je me suis souvent demandé dans quelle mesure la représentation est "réelle" et dans quelle mesure est basée sur des interprétations particulières du théorème. Il peut être utilisé aussi facilement pour décrire une distribution antérieure que pour décrire un modèle.

probabilityislogic

Réponses:

Le théorème de représentation de De Finetti donne en une seule prise, dans l'interprétation subjectiviste des probabilités, la raison d'être des modèles statistiques et la signification des paramètres et de leurs distributions antérieures.

Supposons que les variables aléatoires représentent les résultats de lancements successifs d'une pièce de monnaie, les valeurs et correspondant respectivement aux résultats "Têtes" et "Queues". En analysant, dans le contexte d’une interprétation subjectiviste du calcul des probabilités, le sens du modèle fréquentiste habituel sous lequel les sont indépendants et distribués de manière identique, De Finetti a fait observer que la condition d’indépendance impliquerait, par exemple, que et, par conséquent, des résultats du premier lancers ne changerait pas mon incertitude sur le résultat de $X_1,\dots,X_n$ $1$ $0$ $X_i$

P {X_{n} = x_{n} ∣ X_{1} = x_{1}, \dots, X_{n - 1} = x_{n - 1}} = P {X_{n} = x_{n}},

$P\{X_n=x_n\mid X_1=x_1,\dots,X_{n-1}=x_{n-1}\} = P\{X_n=x_n\} \, ,$

n - 1

$n-1$

n

$n$ -th remuer. Par exemple, si je crois que il s’agit d’une pièce équilibrée, alors, après avoir obtenu l’information selon laquelle les premiers lancers se sont révélés être des "têtes", je continuerais de croire, conditionnellement, que probabilité d'obtenir "Heads" sur 1000 est égal à . En réalité, l'hypothèse d'indépendance des impliquerait qu'il est impossible d'apprendre quoi que ce soit sur la pièce en observant les résultats de ses lancers.

a priori

$\textit{a priori}$

999

$999$

1 / 2

$1/2$

X_{i}

$X_i$

Cette observation a conduit De Finetti à introduire une condition plus faible que l'indépendance qui résout cette contradiction apparente. La solution de De Finetti repose sur une sorte de symétrie de répartition connue sous le nom d’échange.

$\textbf{Definition.}$ Pour un ensemble fini donné d'objets aléatoires, notons leur distribution conjointe. Cet ensemble fini est échangeable si , pour chaque permutation . Une séquence d'objets aléatoires est échangeable si chacun de ses sous-ensembles finis est échangeable. $\{X_i\}_{i=1}^n$ $\mu_{X_1,\dots,X_n}$ $\mu_{X_1,\dots,X_n} = \mu_{X_{\pi(1)},\dots,X_{\pi(n)}}$ $\pi:\{1,\dots,n\}\to\{1,\dots,n\}$ $\{X_i\}_{i=1}^\infty$

En supposant seulement que la séquence de variables aléatoires soit échangeable, De Finetti s'est révélé être un théorème remarquable qui éclaire la signification des modèles statistiques couramment utilisés. Dans le cas particulier où les prennent les valeurs et , le théorème de représentation de De Finetti dit que est échangeable si et seulement s'il existe une variable aléatoire , avec la distribution , telle que dans lequel . De plus, nous avons cela $\{X_i\}_{i=1}^\infty$ $X_i$ $0$ $1$ $\{X_i\}_{i=1}^\infty$ $\Theta:\Omega\to[0,1]$ $\mu_\Theta$

P {X_{1} = x_{1}, \dots, X_{n} = x_{n}} = \int_{[0, 1]} θ^{s} (1 - θ)^{n - s} d μ_{Θ} (θ),

$P\{X_1=x_1,\dots,X_n=x_n\} = \int_{[0,1]} \theta^s(1-\theta)^{n-s}\,d\mu_\Theta(\theta) \, ,$

s = \sum_{i = 1}^{n} x_{i}

$s=\sum_{i=1}^n x_i$

{\bar{X}}_{n} = \frac{1}{n} \sum_{i = 1}^{n} X_{i} \to_{n \to \infty}^{} Θ almost surely,

$\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \xrightarrow[n\to\infty]{} \Theta \qquad \textrm{almost surely},$ ce qui est connu comme loi forte de De Finetti des grands nombres.

Ce théorème de représentation montre comment les modèles statistiques émergent dans un contexte bayésien: sous l'hypothèse de la possibilité d'échangabilité des observables , un tels que, étant donné la valeur de , les éléments observables sont indépendants et distribués de manière identique. De plus, la loi de De Finetti Strong montre que notre opinion antérieure sur le non observable , représentée par la distribution , est l'opinion sur la limite de , avant que nous ayons des informations sur les valeurs des réalisations de l'un des $\{X_i\}_{i=1}^\infty$ $\textbf{there is}$ $\textit{parameter}$ $\Theta$ $\Theta$ $\textit{conditionally}$ $\Theta$ $\mu_\Theta$ $\bar{X}_n$ $X_i$ 's Le paramètre joue le rôle d’une construction subsidiaire utile, ce qui nous permet d’obtenir des probabilités conditionnelles n’impliquant que des observables via des relations telles que $\Theta$

P {X_{n} = 1 ∣ X_{1} = x_{1}, \dots, X_{n - 1} = x_{n - 1}} = E [Θ ∣ X_{1} = x_{1}, \dots, X_{n - 1} = x_{n - 1}] .

$P\{X_n=1\mid X_1=x_1,\dots,X_{n-1}=x_{n-1}\} = \mathrm{E}\left[\Theta\mid X_1=x_1,\dots,X_{n-1}=x_{n-1}\right] \, .$

Zen
la source

Merci pour cette réponse perspicace! Votre point sur l’indépendance est très important et je le réalise pour la première fois.

gui11aume

("un utile" était mieux :))

Neil G

J'ai du mal à comprendre l'affirmation "il existe un paramètre pour que (étant donné ) soient iid". Du théorème de la représentation, il semble que tout ce que nous pouvons déduire est que . C'est-à-dire que la valeur attendue de la densité vraie est la même que la valeur attendue de la densité iid bernoulli avec le paramètre . Pourriez-vous m'expliquer comment nous pouvons supprimer la valeur attendue afin de pouvoir formuler une revendication sur la densité réelle elle-même?

Θ

$\Theta$

Θ

$\Theta$

X_{i}

$X_i$

E [θ^{s} (1 - θ)^{s}] = E [P (X_{i} = x_{i} \forall i | θ)]

$E [\theta^s (1-\theta)^s] = E[P(X_i = x_i \, \forall \, i | \theta) ]$

θ

$\theta$

user795305

L'intégrande est . Comme il prend en compte , les sont conditionnellement donnés .

Pr {X_{1} = x_{1}, \dots, X_{n} = x_{n} ∣ Θ = θ}

$\Pr\{X_1=x_1,\dots,X_n=x_n\mid\Theta=\theta\}$

\prod_{i = 1}^{n} Pr {X_{i} = x_{i} ∣ Θ = θ} = \prod_{i = 1}^{n} θ^{x_{i}} (1 - θ)^{1 - x_{i}}

$\prod_{i=1}^n \Pr\{X_i=x_i\mid\Theta=\theta\}=\prod_{i=1}^n \theta^{x_i}(1-\theta)^{1-x_i}$

X_{i}

$X_i$

Θ = θ

$\Theta=\theta$

Zen

@Zen Merci! Je comprends la première phrase, mais la partie "puisqu'elle tient compte de "n'est toujours pas clair pour moi. Comment savez-vous que les facteurs de cette façon? On dirait que vous supprimez la valeur attendue de l'identité que j'ai écrite dans mon précédent commentaire, mais je ne sais pas comment cela se justifie.

\prod_{i = 1}^{n} Pr {X_{i} = x_{i} ∣ Θ = θ} = \prod_{i = 1}^{n} θ^{x_{i}} (1 - θ)^{1 - x_{i}}

$\prod_{i=1}^n \Pr\{X_i=x_i\mid\Theta=\theta\}=\prod_{i=1}^n \theta^{x_i}(1-\theta)^{1-x_i}$

user795305

Tout est mathématiquement correct dans la réponse de Zen. Cependant, je ne suis pas d'accord sur certains points. S'il vous plaît soyez conscient que je ne prétends pas / crois que mon point de vue est le bon; au contraire, j'estime que ces points ne sont pas encore tout à fait clairs pour moi. Ce sont des questions quelque peu philosophiques sur lesquelles j'aime discuter (et un bon exercice d'anglais pour moi), et je suis également intéressé par tout conseil.

A propos de l'exemple avec "Têtes", le commentaire Zen: "l'hypothèse d'indépendance des impliquerait qu'il est impossible d'apprendre quoi que ce soit sur la pièce en observant les résultats de ses lancers." Ce n'est pas vrai du point de vue fréquentiste: apprendre la pièce signifie apprendre à propos de , ce qui est possible en estimant (estimation ponctuelle ou intervalle de confiance) partir des résultats précédents . Si le fréquentiste observe "Têtes", il conclut que est probablement proche de , et donc conséquence. $999$ $X_i$ $\theta$ $\theta$ $999$ $999$ $\theta$ $1$ $\Pr(X_n=1)$
Au fait, dans cet exemple de tirage au sort, quel est le caractère aléatoire ? Imaginant chacune des deux personnes jouant un jeu de pièces de monnaie un nombre infini de fois avec la même pièce, pourquoi trouveraient-elles un ? Je pense que la caractéristique du tirage au sort est le fixe, qui est la valeur commune de pour tout joueur ("presque n'importe quel joueur" pour des raisons mathématiques théoriques). Un exemple plus concret pour lequel il n'y a pas d'interprétation aléatoire aléatoire est le cas d'un échantillonnage aléatoire avec remplacement dans une population finie de et . $\Theta$ $\theta = \bar X_\infty$ $\theta$ $\bar X_\infty$ $\Theta$ $0$ $1$
À propos du livre de Schervish et de la question soulevée par le PO, je pense que Schervish signifie (rapidement) que l'échangeabilité est une hypothèse «cool» et que le théorème de DeFinetti est «cool» car il dit que chaque modèle échangeable a une représentation paramétrique. Bien sûr je suis totalement d'accord. Cependant, si je suppose un modèle échangeable tel que et alors je serais intéressé à faire des inférences sur et , pas sur la réalisation de . Si je ne suis intéressé que par la réalisation de alors je ne vois aucun intérêt à assumer l’échange. $(X_i\mid\Theta=\theta)\sim_\text{iid} \text{Bernoulli}(\theta)$ $\Theta \sim \text{Beta}(a,b)$ $a$ $b$ $\Theta$ $\Theta$

Il est tard...

Stéphane Laurent
la source

Salut Stéphane! Merci pour vos commentaires sur ma réponse. En votre premier point que , dans ma réponse, tout est exposé dans un contexte bayésien. Il n'y a pas de réelle tentative d'établir un contraste avec d'autres paradigmes d'inférence. En bref, j'ai essayé d'exprimer ce que le théorème de De Finetti signifie pour moi, en Bayésien.

"this is not true from the frequentist perspective"

$\textbf{"this is not true from the frequentist perspective"}$

Zen

A propos de votre deuxième puce: le aléatoire est (en) la limite de , comme indiqué dans le LLN de De Finetti. Ainsi, quand un Bayésien dit que mon prieur pour est , il signifie que cette distribution représente son incertitude à propos de cette limite, avant d'avoir accès aux données. Différents Bayésiens peuvent avoir des antécédents différents, mais, avec les conditions de régularité appropriées, ils auront l' accord de sur (des postérieurs similaires), car ils obtiendront de plus en plus d'informations sur les résultats des lancers.

Θ

$\Theta$

{\bar{X}}_{n}

$\bar{X}_n$

Θ

$\Theta$

μ_{Θ}

$\mu_\Theta$

a posteriori

$\textit{a posteriori}$

Θ

$\Theta$

Zen

Le fixe mais inconnu n’est pas un concept bayésien.

θ

$\theta$

Zen

À propos de votre troisième puce, étant donné que: 1) Schervish est un statisticien bayésien; 2) La quantité de temps et d'énergie qu'il consacre à la discussion sur l'échange dans son livre; Je pense que pour lui le rôle du théorème de De Finetti est très profond, allant bien au-delà de la fraîcheur. Mais je suis d'accord que c'est très cool, en tout cas!

Zen

Pour clarifier mon point de vue: je ne crois pas qu'il y ait un aléatoire dans un modèle bayésien "de base" (non hiérarchique). Il existe une inconnue fixée , et la distribution antérieure décrit la croyance à ce sujet. Le rôle de la variable aléatoire n’est que le traitement mathématique de l’inférence bayésienne, elle n’a aucune interprétation dans l’expérience. Si vous supposez réellement des observations échangeables mais non indépendantes, comme dans l'exemple de ma troisième puce, vous devez alors placer les hyperpriors sur et .

θ

$\theta$

θ

$\theta$

Θ

$\Theta$

a

$a$

b

$b$

Stéphane Laurent

Vous pourriez être intéressé par un article sur ce sujet (abonnement à un journal requis pour l'accès - essayez d'y accéder depuis votre université):

O'Neill, B. (2011) Échangeabilité, corrélation et effet Bayes. Revue internationale de statistique 77 (2), p. 241-250.

Cet article discute du théorème de représentation en tant que base des modèles IID bayésien et fréquentiste, et l'applique également à un exemple de lancer de pièces. Cela devrait éclaircir la discussion sur les hypothèses du paradigme fréquentiste. Il utilise en fait une extension plus large du théorème de représentation allant au-delà du modèle binomial, mais il devrait quand même être utile.

Statistiques
la source

Y a-t-il une version papier de ce que vous avez? Je n'ai pas d'accès atm :-(

IMA

@Stats J'ai lu ce papier après avoir vu ta réponse. Je dois dire que c’est le meilleur article illustrant Bayesian et Frequentist sur ce sujet que j’ai jamais vu. J'aurais aimé lire ce document beaucoup plus tôt. (+1)

KevinKim