Dans son livre "All of Statistics", le professeur Larry Wasserman présente l'exemple suivant (11.10, page 188). Supposons que nous ayons une densité telle que , où est un connu (non négatif, intégrable) la fonction, et la constante de normalisation est inconnu .c > 0
Nous nous intéressons aux cas où nous ne pouvons pas calculer . Par exemple, il se peut que soit un pdf sur un espace d’échantillon de très grande dimension.
Il est bien connu que certaines techniques de simulation nous permettent d’échantillonner à partir de , même si est inconnu. Le casse-tête est donc le suivant: comment pourrions-nous estimer partir d’un tel échantillon?
Le professeur Wasserman décrit la solution bayésienne suivante: supposons que soit un préalable pour . La probabilité est Par conséquent, la partie postérieure ne dépend pas des valeurs échantillons . Par conséquent, un bayésien ne peut pas utiliser les informations contenues dans l'échantillon pour tirer des conclusions sur .π ( c | x ) α c n π ( c ) x 1 , ... , x n c
Le professeur Wasserman fait remarquer que "les bayésiens sont des esclaves de la fonction de vraisemblance. Lorsque la probabilité est incertaine, l'inférence bayésienne le sera aussi".
Ma question pour mes collègues empileurs est la suivante: en ce qui concerne cet exemple particulier, qu'est-ce qui a mal tourné (le cas échéant) avec la méthodologie bayésienne?
PS Comme le professeur Wasserman l'a gentiment expliqué dans sa réponse, l'exemple est dû à Ed George.
Réponses:
Cela a été discuté dans mon article (publié uniquement sur Internet) "Sur un exemple de Larry Wasserman" [ 1 ] et dans un échange de blog entre moi, Wasserman, Robins et d'autres commentateurs sur le blog de Wasserman: [ 2 ]
La réponse courte est que Wasserman (et Robins) génèrent des paradoxes en suggérant que les prieurs dans des espaces de grandes dimensions "doivent" avoir des caractéristiques qui impliquent que le paramètre d'intérêt est connu a priori avec une quasi-certitude ou qu'un problème clairement pertinent (biais de sélection) est connu avec la quasi-certitude de ne pas être présent. En fait, les priors sensibles ne présenteraient pas ces caractéristiques. Je suis en train d'écrire un article de blog résumé pour rassembler tout cela. Il existe un excellent article paru en 2007, qui montre les approches bayésiennes sensées des exemples que Wasserman et Ritov considèrent, de Hameling et Toussaint: «Les estimateurs bayésiens du problème de Robins-Ritov» [ 3 ]
la source
Je ne vois pas beaucoup d'attrait dans cet exemple, en particulier comme une critique potentielle des Bayésiens et de la vraisemblance-wallahs ... La constante est connue, elle est égale à Si est le seul " unknown "dans l'image, étant donné un échantillon , le problème ne pose aucun problème statistique et je ne suis pas d'accord pour dire qu'il existe des estimateurs de . Ni priors sur (autre que la masse de Dirac sur la valeur ci-dessus). Ce n’est pas du tout un problème statistique, mais plutôt un problème numérique .1 / ∫ X g ( x ) d x c x 1 , … , x n c cc
Que l'échantillon puisse être utilisé via une estimation de densité (fréquentiste) pour fournir une approximation numérique de n'est qu'une curiosité. Pas une critique d'approches statistiques alternatives: je pourrais aussi utiliser une estimation bayésienne de la densité ... cx1,…,xn c
la source
Je suis d'accord que l'exemple est bizarre. Je voulais vraiment que ce soit plus un casse-tête. (L'exemple est en fait dû à Ed George.)
Cela pose la question de savoir ce que cela signifie pour quelque chose d'être "connu". Christian dit que est connu. Mais, du moins du point de vue de la probabilité purement subjective, vous ne le savez pas simplement parce qu’il peut en principe être connu. (Supposons que vous ne puissiez pas faire l'intégrale numérique.) Un bayésien subjectif considère tout comme une variable aléatoire avec une distribution, y compris .c c
En tout cas, le papier
(avec discussion) traite essentiellement du même problème.
L'exemple auquel Chris Sims fait référence dans sa réponse est d'une nature très différente.
la source
Le modèle statistique proposé peut être décrit comme suit: Vous avez une fonction intégrable non négative connue et une variable aléatoire non négative . Les variables aléatoires sont supposées être conditionnellement indépendantes et identiquement distribuées, étant donné que , avec une densité conditionnelle , pour .g:R→R C X1,…,Xn C=c fXi∣C(xi∣c)=cg(xi) c>0
Malheureusement, en général, cette description d'un modèle statistique n'est pas valide. Le problème est que, par définition, doit être une densité de probabilité pour presque toutes les valeurs possibles de , ce qui est en général clairement faux. En fait, cela n’est vrai que pour la valeur unique . Par conséquent, le modèle n'est correctement spécifié que dans le cas trivial où la distribution de est concentrée à cette valeur particulière. Bien sûr, ce cas ne nous intéresse pas. Ce que nous voulons, c’est que la distribution de soit dominée par la mesure de Lebesgue, avec un fichier pdf bonne qualité .fXi∣C(⋅∣c) c c=(∫∞−∞g(x)dx)−1 C C π
Par conséquent, en définissant , l'expression prise comme une fonction de , pour fixe , ne correspond pas à une fonction de vraisemblance réelle.x=(x1,…,xn)
Tout ce qui suit hérite de ce problème. En particulier, le postérieur calculé avec le théorème de Bayes est faux. Il est facile de voir cela: supposons que vous ayez un avant correct propre Notez que . Selon le calcul présenté dans l'exemple, le postérieur doit être Mais si cela est vrai, cet arrière serait toujours inapproprié, parce que diverge pour chaque taille d’échantillon .
C'est impossible: nous savons que si nous commençons par un préalable approprié, notre postérieur ne peut pas être incorrect pour tous les échantillons possibles (il peut être incorrect dans un ensemble de probabilité prédictive antérieure nulle).
la source
L'exemple est un peu étrange et artificiel. La probabilité que tout se passe mal est due au fait que g est une fonction connue . Le seul paramètre inconnu est c qui ne fait pas partie de la vraisemblance. De plus, puisque g est connu, les données ne vous donnent aucune information sur f. Quand voyez-vous une telle chose dans la pratique? Donc le postérieur est juste proportionnel au prieur et toutes les informations sur c sont dans le prieur.
D'accord mais réfléchis-y. Les fréquentistes utilisent le maximum de vraisemblance et le fréquentiste s'appuie parfois aussi sur la fonction de vraisemblance. Eh bien, le fréquentiste peut estimer les paramètres d’une autre manière. Mais ce problème inventé n’a qu’un paramètre c et il n’ya pas d’information dans les données concernant c. Puisque g est connu, il n’ya pas de problème statistique lié aux paramètres inconnus qui peuvent être extraits de la période de données.
la source
Il est ironique de constater que la méthode standard de calcul bayésien consiste à utiliser l'analyse fréquentiste des échantillons MCMC. Dans cet exemple, nous pourrions considérer que est étroitement lié à la probabilité marginale, ce que nous aimerions calculer, mais nous allons être des puristes bayésiens dans le sens où nous essayons également de faire le calcul de manière bayésienne.c
Ce n'est pas courant, mais il est possible de faire cette intégrale dans un cadre bayésien. Cela implique de placer un préalable sur la fonction (en pratique un processus gaussien), d'évaluer la fonction à certains points, de conditionner ces points et de calculer une intégrale sur la partie postérieure de la fonction . Dans cette situation, la probabilité implique l'évaluation de à un certain nombre de points, mais est par ailleurs inconnue. La probabilité est donc très différente de la probabilité donnée ci-dessus. La méthode est démontrée dans cet article http://mlg.eng.cam.ac.uk/zoubin/papers/RasGha03.pdfg() g() g() g()
Je ne pense pas que quelque chose s'est mal passé avec la méthodologie bayésienne. La probabilité écrite traite comme étant connu partout. Si tel était le cas, le problème n'aurait aucun aspect statistique. Si est supposé inconnu, sauf pour un nombre fini de points, la méthodologie bayésienne fonctionne bien.g() g()
la source
Nous pourrions élargir la définition des « connus connus» (analogue à l'extension des données afin de permettre aux données manquantes de la donnée observée mais perdue) d'inclure NULL (aucune donnée générée).
Supposons que vous ayez un précédent correct propre Définissez maintenant le modèle de données pour x
Sic=(∫∞−∞g(x)dx)−1
Sinon,faXa∣C(xa∣c)=0
Ainsi, le caractère postérieur serait 0 ou 1 (correct) mais la probabilité du modèle de données ci-dessus n'est pas disponible (car vous ne pouvez pas déterminer la condition requise dans le modèle de données).
Donc, vous faites ABC.
Dessinez un «c» de l'avant.
Maintenant approximativement par une intégration numérique et conservez «c» si cette approximation - «c» <epsilon.(∫∞−∞g(x)dx)−1
Les c conservés seront une approximation du vrai postérieur.
(La précision de l'approximation dépendra de epsilon et du caractère suffisant du conditionnement pour cette approximation.)
la source
Attends quoi? Vous avez donc cela dépend des valeurs de . Ce n'est pas parce que vous cachez la dépendance dans un " " que vous pouvez l'ignorer?{ x i } ∝
la source