Je sais que les a priori n'ont pas besoin d'être appropriés et que la fonction de vraisemblance ne s'intègre pas non plus à 1. Mais le postérieur doit-il être une distribution appropriée? Quelles sont les implications si c'est / n'est pas?
Je sais que les a priori n'ont pas besoin d'être appropriés et que la fonction de vraisemblance ne s'intègre pas non plus à 1. Mais le postérieur doit-il être une distribution appropriée? Quelles sont les implications si c'est / n'est pas?
(Il est quelque peu surprenant de lire les réponses précédentes, qui mettent l'accent sur l'irrégularité potentielle du postérieur lorsque le prieur est approprié, car, pour autant que je sache, la question est de savoir si le postérieur doit être correct ( c.-à-d. intégrable à un) pour être un postérieur approprié (c.-à-d. acceptable pour l'inférence bayésienne).)
Dans les statistiques bayésiennes, la distribution postérieure doit être une distribution de probabilité, à partir de laquelle on peut dériver des moments comme la moyenne postérieure et des énoncés de probabilité comme la couverture d'un crédible région, . Si \ int f (x | \ theta) \, \ pi (\ theta) \, \ text {d} \ theta = + \ infty \ ,, \ qquad (1) le \ pi (\ theta | x) postérieur ne peut pas être normalisé en une densité de probabilité et l'inférence bayésienne ne peut tout simplement pas être effectuée. Le postérieur n'existe tout simplement pas dans de tels cas. P (π(θ | x)>κ | x) ∫ f(x | θ)π ( θ | x )
En fait, (1) doit être valable pour tous les dans l'espace d'échantillonnage et pas seulement pour les x observés , sinon, la sélection de l'a priori dépendrait des données . Cela signifie que des a priori comme le précédent de Haldane, \ pi (p) \ propto \ {1 / p (1-p) \} , sur la probabilité p d'un binôme ou d'une variable binomiale négative X ne peuvent pas être utilisés, puisque le postérieur n'est pas défini pour x = 0 .
Je connais une exception quand on peut considérer les "postérieurs impropres": on en trouve dans "The Art of Data Augmentation" de David van Dyk et Xiao-Li Meng. La mesure incorrecte est sur un soi-disant paramètre de travail tel que l'observation est produite par le marginal d'une distribution augmentée et van Dyk et Meng ont mis un mauvais sur ce paramètre de travail afin d'accélérer la simulation de (qui reste bien définie comme densité de probabilité) par MCMC.f ( x | θ ) = ∫ T ( x aug ) = x f ( x aug | θ , α ) p ( α ) α π ( θ | x )
Dans une autre perspective, quelque peu liée à la réponse des eretmochelys , à savoir une perspective de la théorie de la décision bayésienne , un cadre où (1) se produit pourrait toujours être acceptable s'il conduisait à des décisions optimales. A savoir, si est une fonction de perte évaluant l'impact de l'utilisation de la décision , une décision optimale bayésienne sous le précédent est donnée par et tout ce qui compte c'est que cette intégrale ne soit pas partout (en ) infini. La validité de (1) est secondaire pour la dérivation de
Il n'est pas nécessaire que la distribution postérieure soit correcte, même si l'a priori l'est. Par exemple, supposons que ait un Gamma a priori de forme 0,25 (ce qui est approprié), et nous modélisons notre donnée comme tirée d'une distribution gaussienne avec un zéro moyen et une variance . Supposons que soit observé comme étant nul. La probabilité est alors proportionnelle à , ce qui rend la distribution postérieure de impropre, car elle est proportionnelle à . Ce problème se pose en raison de la nature farfelue des variables continues.
Définition de l'ensemble des nous avons P r ( X ∈ Données Bogus ) = ∫ Données Bogus ∫ f ( x ∣ θ )
En mots: la probabilité prédictive antérieure de ces valeurs d'échantillon qui rendent le postérieur impropre est égale à zéro.
Morale de l'histoire: méfiez-vous des ensembles nuls, ils peuvent mordre, aussi improbable soit-il.
PS Comme l'a souligné le professeur Robert dans les commentaires, ce raisonnement explose si le prieur est incorrect.
la source
Toute "distribution" doit additionner (ou intégrer) à 1. Je peux penser à quelques exemples où l'on pourrait travailler avec des distributions non normalisées, mais je suis mal à l'aise d'appeler tout ce qui marginalise à autre chose que 1 une "distribution".
la source
la source