Interprétation de l'intervalle de prédiction bayésien à 95%

9

Supposons le modèle de régression bivarié suivant: où est iid pour .

yi=βxi+ui,
uiN(0,σ2=9)i=1,,n

Supposons un a priori non informatif , alors on peut montrer que le pdf postérieur pour est oùp(β)constantβ

p(β|y)=(18π)12(i=1nxi2)12exp[118i=1nxi2(ββ^)2],
β^=(i=1nyixi)/(i=1nxi2).

Considérons maintenant la valeur de avec une valeur future donnée de , : où est iid , alors nous pouvons montrer que est une densité normale avec espérance et variance Ainsi, la fonction de densité de probabilité postérieure pour , conditionnelle à , est yxxn+1

yn+1=βxn+1+un+1,
un+1N(0,σ2=9)
p(yn+1|xn+1,y)=βp(yn+1|xn+1,β,y)p(β|y)dβ
E[yn+1|xn+1,y]=β^xn+1,var[yn+1|xn+1,y]=9[xn+12+i=1nxi2]i=1nxi2.
yn+1xn+1
p(yn+1|xn+1,y)=(18π[xn+12+i=1nxi2]i=1nxi2)12×exp{i=1nxi218(xn+12+i=1nxi2)(yn+1β^xn+1)2}

Maintenant la question est: Spécifiez un intervalle de prédiction de 95% pour et interprétez-le soigneusement. Sur quel (s) aspect (s) du processus de génération de données l'intervalle ne parvient-il pas à tenir compte de notre incertitude?yn+1


Je ne sais pas trop comment répondre à la question, mais voici ma tentative:

Donc, nous devons essentiellement trouver quelques et tels queabP(a<yn+1<b)=abp(yn+1|xn+1,y)dyn+1=95%

Nous savons maintenant que où et , d'où: yn+1|xn+1,yN(m,v2)m=E[yn+1|xn+1,y]v2=var[yn+1|xn+1,y]

yn+1mvN(0,1)
P(1.96<yn+1mv<1.96)=95%
P(1.96v+m<yn+1<1.96v+m)=95%

Maintenant, parce que nous conditionnons sur et regardons l'expression de et , nous voyons que et sont des valeurs connues. On peut donc prendre et . c'est-à-dire que nous pouvons sélectionner de nombreuses autres possibilités de et qui donnent une probabilité de ... mais comment cela se rapporte-t-il à la réponse à la partie de la question qui demande quels aspects du processus de génération de données cet intervalle ne prend pas en compte?xn+1vmvma=1.96v+mb=1.96v+mab95%

TeTs
la source
1
Veuillez ajouter la balise d'auto-apprentissage s'il s'agit de devoirs ou d'une tentative de problème de manuel.
Nick Cox
2
@Nick Cox Merci de m'avoir informé, j'ai ajouté la balise d'auto-apprentissage.
TeTs
Se pourrait-il que l'intervalle en particulier ne nous donne aucune compréhension de la forme du processus de génération de données? Autrement dit, nous ne connaissons pas la combinaison moyenne / variance uniquement à partir de l'intervalle?
Question étrange. Y a-t-il un contexte avant l'exercice? Pourquoi dites-vous un modèle de régression bivarié ?
Stéphane Laurent

Réponses:

2

L'intervalle accueille toute l'incertitude du problème. Dans votre description du problème, les seules choses que vous ne savez pas sont et . L'intervalle de prédiction que vous avez dérivé tient compte de l'incertitude des deux. Il n'y a donc plus d'incertitude quant à l'intervalle de "ne pas tenir compte".βu

Tom Minka
la source
Il subsiste une incertitude quant à savoir si le modèle est correct ou non.
Xi'an
1
Le modèle a été présenté comme une hypothèse. Il n'y a donc aucune incertitude à ce sujet.
Tom Minka
Je suppose que cela signifie que la distribution prédictive représente toute l'incertitude du problème et que l'intervalle ne résume qu'un aspect de cette distribution. Pourtant, il n'est pas clair qu'en tant qu'intervalle cela laisse de côté.
conjugateprior