Comment un mauvais passé peut-il conduire à une bonne distribution postérieure?
22
Nous savons que dans le cas d'une distribution préalable correcte,
P(θ∣X)=P(X∣θ)P(θ)P(X)
∝P(X∣θ)P(θ) .
La justification habituelle de cette étape est que la distribution marginale de , , est constante par rapport à et peut donc être ignorée lors de la dérivation de la distribution postérieure.XP(X)θ
Cependant, dans le cas d'un a priori incorrect, comment savez-vous que la distribution postérieure existe réellement? Il semble qu'il manque quelque chose dans cet argument apparemment circulaire. En d'autres termes, si je suppose que le postérieur existe, je comprends la mécanique de la façon de dériver le postérieur, mais il me semble manquer la justification théorique pour expliquer pourquoi il existe même.
PS Je reconnais également qu'il existe des cas dans lesquels un mauvais avant conduit à un mauvais postérieur.
Nous acceptons généralement les postérieurs de prieurs impropres si
existe et est une distribution de probabilité valide (c'est-à-dire, il intègre exactement à 1 sur le support). Cela se résume essentiellement à \ pi (X) = \ int \ pi (X \ mid \ theta) \ pi (\ theta) \, d \ theta étant fini. Si tel est le cas, alors nous appelons cette quantité \ pi (\ theta \ mid X) et l' acceptons comme la distribution postérieure que nous voulons. Cependant, il est important de noter qu'il ne s'agit PAS d'une distribution postérieure, ni d'une distribution de probabilité conditionnelle (ces deux termes sont synonymes dans le contexte ici).π(θ) π(X)=∫π(X∣θ)π(θ)
π(X∣θ)π(θ)π(X)
π ( θ ∣ X )π(X)=∫π(X∣θ)π(θ)dθπ(θ∣X)
Maintenant, j'ai dit que nous acceptons les distributions «postérieures» de prieurs incorrects étant donné ce qui précède. La raison pour laquelle ils sont acceptés est que les antérieurs nous donneront toujours des «scores» relatifs sur l'espace des paramètres; c'est-à-dire que le rapport sens à notre analyse. Dans certains cas, la signification que nous obtenons des prieurs incorrects peut ne pas être disponible dans les priors appropriés. C'est une justification potentielle pour les utiliser. Voir la réponse de Sergio pour un examen plus approfondi de la motivation pratique des prieurs impropres.π ( θ 1 )π(θ)π(θ1)π(θ2)
Il convient de noter que cette quantité a également des propriétés théoriques souhaitables, Degroot & Schervish :π(θ∣X)
Les a priori incorrects ne sont pas de vraies distributions de probabilité, mais si nous prétendons qu'ils le sont, nous calculerons des distributions a posteriori qui se rapprochent des a posterioris que nous aurions obtenus en utilisant des a priori conjugués appropriés avec des valeurs extrêmes des hyperparamètres antérieurs.
Je suis confus par quelques éléments dans votre réponse. Vous dites que nous acceptons les postérieurs si ce qui précède est fini. Est-ce à dire que si cette intégrale n'est pas finie, la partie postérieure ne sera pas finie? De plus, vous semblez impliquer que nous utilisons le postérieur dans ce cas, mais ce n'est pas une vraie distribution - n'est-ce pas? n'y a-t-il pas des cas où il s'agit d'une vraie distribution? Aussi, qu'est-ce que le ratio de prieurs a à voir avec cela? Je ne vois pas la connexion.
Ben Elizabeth Ward
@BenElizabethWard Si existe, alors l'intégrale doit exister (et donc être finie). La contrapositive est également vraie: si n'existe pas (est infini), alors n'existe pas. Lorsqu'il existe et qu'il s'agit d'une distribution de probabilité valide, est une distribution de probabilité. Cependant, ce n'est pas une distribution postérieure pour avec la vraisemblance donnée des données . Le postérieur de ce prieur n'existe pas. Nous acceptons dans notre analyse car il s'agit d'une approximation. π ( X ) π ( X ) π ( θ ∣ X ) π ( θ ∣ X ) π ( θ )π(θ∣X)π(X)π(X)π(θ∣X)π(θ∣X)π(θ)π ( θ ∣ X )π(X∣θ)π(θ∣X)
1
@BenElizabethWard Le ratio a été utilisé pour démontrer que le prieur contient toujours des informations utiles que nous ne pourrons peut-être pas charger dans un bon prieur. Je vais modifier ma réponse pour l'inclure.
2
@jsk n'est pas une distribution de probabilités, mais la définition de la distribution postérieure nécessite que soit une distribution de probabilités, donc c'est de la triche d'appeler une distribution postérieure quand il s'agit d'une distribution de probabilité. Degroot & Schervish disent: "nous calculerons les distributions postérieures qui ..." par lesquelles ils supposent que vous avez accepté de "prétendre qu'ils [les prieurs impropres] sont [les prieurs appropriés]" comme indiqué plus haut dans la citation. π ( θ ) π ( θ ∣ X )π( θ )π( θ )π( θ ∣ X)
1
Pour que votre réponse soit complète et autonome afin que les futurs lecteurs n'aient pas à lire cet échange de commentaires, souhaitez-vous mettre à jour votre réponse?
jsk
9
Il existe une réponse "théorique" et une réponse "pragmatique".
D'un point de vue théorique, lorsqu'un a priori est incorrect, le postérieur n'existe pas (enfin, regardez la réponse de Matthew pour une déclaration plus solide), mais peut être approximé par une forme limitative.
Si les données comprennent un échantillon conditionnellement iid de la distribution de Bernoulli avec le paramètre , et a la distribution beta avec les paramètres et , la distribution postérieure de est la distribution beta avec les paramètres ( observations, succès) et sa moyenne est . Si nous utilisons la distribution bêta incorrecte (et irréelle) avant avec les hypeparamètres précédents , et que nous prétendons queθ α β θ α + s , β + n - s n s ( α + s ) / ( α + β +θθαβθα + s , β+ n - snsα = β = 0 π ( θ ) ∝ θ - 1 ( 1 - θ ) - 1 θ s - 1 ( 1 - θ ) n - s( α + s ) / ( α + β+ n )α = β= 0π( θ ) ∝ θ- 1( 1 - θ )- 1, on obtient un postérieur propre proportionnel à , ie le pdf de la distribution beta avec les paramètres et exception d'un facteur constant. Il s'agit de la forme limitative du postérieur pour un a priori bêta avec les paramètres et (Degroot & Schervish, exemple 7.3.13). sn-sα→0β→0θs - 1( 1 - θ )n - s - 1sn - sα → 0β→ 0
Dans un modèle normal avec moyenne , variance connue , et une distribution antérieure pour , si la précision antérieure, , est petite par rapport à la précision des données, , alors la distribution postérieure est approximativement comme si :
c'est-à-dire que la distribution postérieure est approximativement celle qui résulterait de l'hypothèse que est proportionnelle à une constante pourσ 2 N ( μ 0 , τ 2 0 ) θ 1 / τ 2 0 n / σ 2 τ 2 0 = ∞ p ( θ ∣ x ) ≈ N ( θθσ2N( μ0, τ20)θ1 / τ20n / σ2τ20= ∞p ( θ ) θ ∈ ( - ∞ , ∞ ) τ 2 0
p ( θ ∣ x ) ≈ N( θ ∣ x¯, σ2/ n)
p ( θ )θ ∈ ( - ∞ , ∞ ), une distribution qui n'est pas strictement possible, mais la forme limite du postérieur à l' approche de ( Gelman et al. , p. 52).τ20∞
D'un point de vue "pragmatique", lorsque
quel que soit , donc si dans
, puis . Des antérieurs incorrects peuvent être utilisés pour représenter le comportement local de la distribution antérieure dans la région où la probabilité est appréciable, par exemple . En supposant que pour une approximation suffisante, un a priori suit des formes telles que ou uniquement surp ( x ∣ θ ) = 0 p ( θ ) p ( x ∣ θ ) ≠ 0 ( a , b ) ∫ ∞ - ∞ p ( x ∣ θ ) p ( θ ) d θ = ∫ b a p ( x ∣p ( x ∣ θ ) p ( θ ) = 0p ( x ∣ θ ) = 0p ( θ )p ( x ∣ θ ) ≠ 0( a , b )( a , b ) f ( x ) = k , x ∈ ( - ∞ , ∞ ) f∫∞- ∞p ( x ∣ θ ) p ( θ ) dθ = ∫bunep ( x ∣ θ ) p ( θ ) dθ( a , b )F( x ) = k , x ∈ ( - ∞ , ∞ )( a , b ) θ U ( - ∞ , ∞ ) ( a ,F( x ) = k x- 1, x ∈ ( 0 , ∞ )( a , b ), qu'il arrive à zéro en dehors de cette plage, nous nous assurons que les priors réellement utilisés sont corrects ( Box et Tiao , p. 21). Donc, si la distribution précédente de est mais
est bornée, c'est comme si , c'est-à-dire . Pour un exemple concret, c'est ce qui se passe dans Stan : si aucun a priori n'est spécifié pour un paramètre, il reçoit implicitement un a priori uniforme sur son support et cela est traité comme une multiplication de la vraisemblance par une constante.θU( - ∞ , ∞ )θ ∼ U ( a , b ) p ( x ∣ θ ) p ( θ ) = p ( x ∣ θ ) k ∝ p ( x ∣ θ )( a , b )θ ∼ U( a , b )p ( x ∣ θ ) p ( θ ) = p ( x ∣ θ ) k ∝ p ( x ∣ θ )
Pouvez-vous en dire plus sur les raisons pour lesquelles il n'existe pas d'un point de vue théorique?
jsk
Je n'ai pas pu mieux expliquer que Matthew dans sa réponse et dans ses commentaires.
Sergio
Dans la section pragmatique, qu'est-ce que y? Dans cette section également, certains des termes devraient-ils être la probabilité ? p ( x ∣ θ )p ( θ ∣ x )p ( x ∣ θ )
jsk
Merci. Je pense qu'il pourrait y avoir une autre erreur ... Vous écrivez , mais l'a priori ne peut pas dépendre de . Voulez-vous dire ? x P ( θ ) = k θ - 1P( θ ) = k x- 1XP( θ ) = k θ- 1
jsk
Droite! J'ai réécrit ces formules telles qu'elles sont dans Box & Tiao. J'essayais de choisir une notation homogène (par exemple, Gelman utilise au lieu de , DeGroot utilise Pour les prieurs et les postérieurs, etc.) mais je me suis retrouvé dans un désordre ... Merci! x ξ ( . )yXξ( . )
Sergio
2
Cependant, dans le cas d'un a priori incorrect, comment savez-vous que la distribution postérieure existe réellement?
La partie postérieure pourrait ne pas convenir non plus. Si le prieur est incorrect et que la probabilité est plate (car il n'y a pas d'observations significatives), le postérieur est égal au prieur et est également incorrect.
Habituellement, vous avez quelques observations, et généralement la probabilité n'est pas plate, donc le postérieur est approprié.
Il existe une réponse "théorique" et une réponse "pragmatique".
D'un point de vue théorique, lorsqu'un a priori est incorrect, le postérieur n'existe pas (enfin, regardez la réponse de Matthew pour une déclaration plus solide), mais peut être approximé par une forme limitative.
Si les données comprennent un échantillon conditionnellement iid de la distribution de Bernoulli avec le paramètre , et a la distribution beta avec les paramètres et , la distribution postérieure de est la distribution beta avec les paramètres ( observations, succès) et sa moyenne est . Si nous utilisons la distribution bêta incorrecte (et irréelle) avant avec les hypeparamètres précédents , et que nous prétendons queθ α β θ α + s , β + n - s n s ( α + s ) / ( α + β +θ θ α β θ α + s , β+ n - s n s α = β = 0 π ( θ ) ∝ θ - 1 ( 1 - θ ) - 1 θ s - 1 ( 1 - θ ) n - s( α + s ) / ( α + β+ n ) α = β= 0 π( θ ) ∝ θ- 1( 1 - θ )- 1 , on obtient un postérieur propre proportionnel à , ie le pdf de la distribution beta avec les paramètres et exception d'un facteur constant. Il s'agit de la forme limitative du postérieur pour un a priori bêta avec les paramètres et (Degroot & Schervish, exemple 7.3.13). sn-sα→0β→0θs - 1( 1 - θ )n - s - 1 s n - s α → 0 β→ 0
Dans un modèle normal avec moyenne , variance connue , et une distribution antérieure pour , si la précision antérieure, , est petite par rapport à la précision des données, , alors la distribution postérieure est approximativement comme si : c'est-à-dire que la distribution postérieure est approximativement celle qui résulterait de l'hypothèse que est proportionnelle à une constante pourσ 2 N ( μ 0 , τ 2 0 ) θ 1 / τ 2 0 n / σ 2 τ 2 0 = ∞ p ( θ ∣ x ) ≈ N ( θθ σ2 N( μ0, τ20) θ 1 / τ20 n / σ2 τ20= ∞ p ( θ ) θ ∈ ( - ∞ , ∞ ) τ 2 0
D'un point de vue "pragmatique", lorsque quel que soit , donc si dans , puis . Des antérieurs incorrects peuvent être utilisés pour représenter le comportement local de la distribution antérieure dans la région où la probabilité est appréciable, par exemple . En supposant que pour une approximation suffisante, un a priori suit des formes telles que ou uniquement surp ( x ∣ θ ) = 0 p ( θ ) p ( x ∣ θ ) ≠ 0 ( a , b ) ∫ ∞ - ∞ p ( x ∣ θ ) p ( θ ) d θ = ∫ b a p ( x ∣p ( x ∣ θ ) p ( θ ) = 0 p ( x ∣ θ ) = 0 p ( θ ) p ( x ∣ θ ) ≠ 0 ( a , b ) ( a , b ) f ( x ) = k , x ∈ ( - ∞ , ∞ ) f∫∞- ∞p ( x ∣ θ ) p ( θ ) dθ = ∫bunep ( x ∣ θ ) p ( θ ) dθ ( a , b ) F( x ) = k , x ∈ ( - ∞ , ∞ ) ( a , b ) θ U ( - ∞ , ∞ ) ( a ,F( x ) = k x- 1, x ∈ ( 0 , ∞ ) ( a , b ) , qu'il arrive à zéro en dehors de cette plage, nous nous assurons que les priors réellement utilisés sont corrects ( Box et Tiao , p. 21). Donc, si la distribution précédente de est mais
est bornée, c'est comme si , c'est-à-dire . Pour un exemple concret, c'est ce qui se passe dans Stan : si aucun a priori n'est spécifié pour un paramètre, il reçoit implicitement un a priori uniforme sur son support et cela est traité comme une multiplication de la vraisemblance par une constante.θ U( - ∞ , ∞ ) θ ∼ U ( a , b ) p ( x ∣ θ ) p ( θ ) = p ( x ∣ θ ) k ∝ p ( x ∣ θ )( a , b ) θ ∼ U( a , b ) p ( x ∣ θ ) p ( θ ) = p ( x ∣ θ ) k ∝ p ( x ∣ θ )
la source
La partie postérieure pourrait ne pas convenir non plus. Si le prieur est incorrect et que la probabilité est plate (car il n'y a pas d'observations significatives), le postérieur est égal au prieur et est également incorrect.
Habituellement, vous avez quelques observations, et généralement la probabilité n'est pas plate, donc le postérieur est approprié.
la source