Inférence bayésienne sur une somme de variables aléatoires à valeur réelle iid

8

Soit , , ..., iid RV avec une plage mais une distribution inconnue. (Je suis d'accord avec l'hypothèse que la distribution est continue, etc., si nécessaire.)X1X2Xn[0,1]

Définissez .Sn=X1++Xn

On me donne et je demande: que puis-je déduire, de manière bayésienne, à propos de ?SkSn

Autrement dit, on me donne la somme d'un échantillon de taille des VR, et je voudrais savoir ce que je peux déduire de la distribution de la somme de tous les RV, en utilisant une approche bayésienne (et en supposant des a priori raisonnables sur le Distribution).k

Si le support était au lieu de , alors ce problème est bien étudié, et (avec des a priori uniformes) vous obtenez des distributions composées bêta-binomiales pour la distribution inférée sur . Mais je ne sais pas comment l'aborder avec comme plage ...{0,1}[0,1]Sn[0,1]

Divulgation complète : J'ai déjà posté cela sur MathOverflow , mais on m'a dit qu'il serait mieux de le publier ici, c'est donc une re-publication.

Ronald L Rivest
la source
J'étais sur le point de vous écrire un commentaire sur MO, mais je vais l'écrire ici à la place. Si vous pensez que la question est mieux adaptée à ce forum, vous pouvez la signaler sur MO et demander à la fermer.
Cardinal
1
J'aimerais avoir des éclaircissements sur votre dernière déclaration. Si la plage est alors toute distribution qui met une masse sur des valeurs qui ne sont pas dans pour la distribution de semble idiote, donc je me demande si je ' ai bien compris votre objectif. (Peut-être qu'une référence serait utile.){0,1}{0,1,,n}Sk
Cardinal
Qu'est-ce que j'ai mal compris?
Cardinal
1
Êtes-vous intéressé par la non paramétrique bayésienne? Si vous ne voulez pas faire d'hypothèses sur la distribution des , vous avez besoin d'un cadre non paramétrique. Mais alors, étant donné que vous ne pouvez pas en dire beaucoup ...XkSk
Xi'an
1
Ce sont de bonnes remarques; désolé que le problème soit un peu confus. Je pensais que n est très grand par rapport à , et que le postérieur sur refléterait directement le postérieur sur les paramètres. Peut-être qu'au lieu de j'aurais dû utiliser , et demandé le postérieur sur que va à l'infini. Est-ce que cela a du sens maintenant? kSnSnSn=Sn/nlimSnn
Ronald L Rivest

Réponses:

2

Considérons l'analyse non paramétrique bayésienne suivante.

Définissez et laissez être les sous-ensembles Borel de . Soit une mesure finie non nulle sur .X=[0,1]BXα(X,B)

Soit un processus de Dirichlet avec le paramètre , et supposons que sont conditionnellement iid, étant donné que , tel que , pour chaque .QαX1,,XnQ=qμX1(B)=P{X1B}=q(B)BB

D'après les propriétés du processus de Dirichlet, nous savons que, étant donné , la distribution prédictive d'une observation future comme est la mesure over défini par X1,,XkXk+1β(X,B)

β(B)=1α(X)+k(α(B)+i=1kIB(Xi)).

Maintenant, définissez comme le champ sigma généré par , et utilisez la mesurabilité et la symétrie des pour obtenir presque sûrement.FkX1,,XkXi

E[SnFk]=Sk+E[i=k+1nXi|Fk]=Sk+(nk)E[Xk+1Fk],

Pour trouver une réponse explicite, supposons que soit . En définissant , nous avons presque sûrement (la distribution conjointe de ), où . Dans la limite "non informative" de , l'ancienne attente se réduit à , ce qui signifie que, dans ce cas, votre estimation postérieure pour est juste fois la moyenne du premierα()/α(X)U[0,1]c=α(X)>0

E[SnX1=x1,,Xk=xk]=sk+nkc+k(c2+sk),
[μX1,,Xk]X1,,Xksk=x1++xkc0n(sk/k)Snnk observations, qui semble aussi intuitive que possible.
Zen
la source
Est-il possible d'obtenir une belle expression pour sous ce modèle aussi? Var[Sn|Sk]
Cyan
1

Pardonnez le manque de théorie de la mesure et les abus de notation dans ce qui suit ...

Puisqu'il s'agit d'une inférence bayésienne, il doit y avoir un certain a priori sur l'inconnu dans le problème, qui dans ce cas est la distribution de , un paramètre de dimension infinie prenant des valeurs dans l'ensemble des distributions sur (appelez-le ). La distribution de données converge vers une distribution normale, donc si est assez grand ( théorème de Berry-Esseen ), nous pouvons simplement gifler cette normale comme approximation. De plus, si l'approximation est exacte, le seul aspect du antérieur qui importe en termes pratiques est le prior induit sur .X1[0,1]πSk|πkp(π)(Eπ(X1),Varπ(X1))=(μ,σ2)

Maintenant, nous faisons une prédiction bayésienne standard et mettons les densités approximatives. ( est soumis à la même approximation que .)SnSk

p(Sn|Sk)=p(π|Sk)p(Sn|π,Sk)dπ

p(Sn|Sk)=p(π)p(Sk|π)p(Sk)p(Sn|π,Sk)dπ

p(Sn|Sk)p(μ,σ2)N(Sk|kμ,kσ2)N(Sn|(nk)μ+Sk,(nk)σ2)d(μ,σ2)p(μ,σ2)N(Sk|kμ,kσ2)d(μ,σ2)

Pour les limites de l'intégrale, , évidemment; Je pense que ?μ[0,1]σ2[0,14]

Ajouté plus tard: non,C'est bien - les valeurs autorisées de dépendent de , donc les informations dans les données sur sont également pertinentes pour .σ2[0,μ(1μ)].σ2μμσ2

Cyan
la source
1
Je ne comprends pas votre paragraphe principal. Tout d'abord, la convergence vers une normale ne se produit qu'après un décalage et une mise à l'échelle de et ce n'est pas par le théorème de Berry-Esseen (qui est un théorème sur le taux de convergence vers la normale), mais par le CLT. De plus, le décalage et la mise à l'échelle dépendront du paramètre fixe particulier. Avez-vous examiné un cas où vous avez, disons, un a priori à trois points uniformément distribué sur ? Sn{0,1/2,1}
Cardinal
Permettez-moi de préciser que lorsque j'écris "normal", je ne veux pas dire standard normal. Ainsi, le décalage et la nouvelle échelle modifient la moyenne et la variance, mais la convergence se fait toujours vers un élément de la famille des distributions normales. Je voulais que le lien vers le théorème de Berry-Esseen fasse référence à l'expression "si est assez grand"; son emplacement actuel est une erreur de couper-coller, et je vais le changer. Je ne comprends pas votre question sur le paramètre fixe - pouvez-vous clarifier la question? k
Cyan
Re: question du cardinal. Notez que l'a priori est une distribution sur les distributions avec support dans . Si je prends votre question à la lettre, vous posez des questions sur un a priori qui prend en charge trois variables aléatoires constantes , ce qui est trivial à analyser. Mais puisque vous avez écrit dans un autre commentaire "Si la plage est alors toute distribution qui met n'importe quelle masse sur des valeurs qui ne sont pas dans pour la distribution de semble idiote," je pense que vous ' re demandant des distributions de données discrètes. La réponse courte est «non, ce n'est pas idiot». Suite ...[0,1]0,10,1,,nSk
Cyan
Je pense qu'il y a plusieurs problèmes ici: (a) L'énoncé de la question pourrait utiliser un certain raffinement pour clarifier l'objectif final, (b) la question, les commentaires et les réponses ont, malheureusement, été embrouillés par des fautes de frappe, des erreurs de calcul et plusieurs fils de conversation par inadvertance , et (c) mes commentaires mentionnés ci-dessus semblent être pris un peu hors contexte. Ma déclaration concernant (Typo: aurait dû être ) concerne la distribution postérieure de étant donné . Si je connais alors toute distribution postérieure qui n'y met pas toute sa masse devrait être inadmissible. SkSnSnSkSn{Sk,,n}
Cardinal
0

Soit chaque appartenir à la famille de distribution et avoir des paramètres .XiFθ

Étant donné, , nous avons une distribution sur :Skθ

Pr(θSk)=1ZPr(θ)Pr(Skθ)

Et, notre distribution sur , est Snnk

Pr(Sn=iSk)=Pr(Snk=iSk|Sk)=Pr(Snk=iSk|θ)Pr(θSk)dθ

(et de même pour )n<k

Ces deux équations ont de belles formes lorsque est une distribution dans la famille exponentielle qui est fermée sous la somme d'éléments iid comme la distribution normale, la distribution gamma et la distribution binomiale. Cela fonctionne également pour leurs cas particuliers comme la distribution exponentielle et la distribution de Bernoulli.F

Il pourrait être intéressant de considérer que est la famille de distributions binomiales échelonnées (par ) avec des "essais" connus , et prenant la limite lorsque va à l'infini.F1nnn

Neil G
la source