Bayésiens: esclaves de la fonction de vraisemblance?

62

Dans son livre "All of Statistics", le professeur Larry Wasserman présente l'exemple suivant (11.10, page 188). Supposons que nous ayons une densité telle que , où est un connu (non négatif, intégrable) la fonction, et la constante de normalisation est inconnu .ff(x)=cg(x)c > 0gc>0

Nous nous intéressons aux cas où nous ne pouvons pas calculer . Par exemple, il se peut que soit un pdf sur un espace d’échantillon de très grande dimension.c=1/g(x)dxf

Il est bien connu que certaines techniques de simulation nous permettent d’échantillonner à partir de , même si est inconnu. Le casse-tête est donc le suivant: comment pourrions-nous estimer partir d’un tel échantillon?fcc

Le professeur Wasserman décrit la solution bayésienne suivante: supposons que soit un préalable pour . La probabilité est Par conséquent, la partie postérieure ne dépend pas des valeurs échantillons . Par conséquent, un bayésien ne peut pas utiliser les informations contenues dans l'échantillon pour tirer des conclusions sur .πcπ ( c | x ) α c n π ( c ) x 1 , ... , x n c

Lx(c)=i=1nf(xi)=i=1n(cg(xi))=cni=1ng(xi)cn.
π(cx)cnπ(c)
x1,,xnc

Le professeur Wasserman fait remarquer que "les bayésiens sont des esclaves de la fonction de vraisemblance. Lorsque la probabilité est incertaine, l'inférence bayésienne le sera aussi".

Ma question pour mes collègues empileurs est la suivante: en ce qui concerne cet exemple particulier, qu'est-ce qui a mal tourné (le cas échéant) avec la méthodologie bayésienne?

PS Comme le professeur Wasserman l'a gentiment expliqué dans sa réponse, l'exemple est dû à Ed George.

Zen
la source
10
Cet exemple sonne simplement comme un moyen bizarre et inefficace de procéder à une intégration numérique plutôt que comme une analyse bayésienne.
whuber
2
Comment pouvez-vous dire que le bayésien n'apprend rien sur . Si c'était le cas, nous aurions . Ce n'est clairement pas. π ( c | x ) alpha π ( c )cπ(c|x)π(c)
probabilislogic
2
Je ne comprends pas vraiment cet exemple. Si ne dépend pas de n'est-il pas surprenant que les données ne soient pas informatives, car dépend uniquement de la forme de et est identique pour échantillons? Il me manque évidemment un point subtil (ou pas si subtil). c c g ( ) à n yg()ccg()any
Dikran Marsupial
J'ai mis au point une approche formellement bayésienne qui pourrait permettre de surmonter l'objection de @ Zen, ne contre-indique pas le manque d'intérêt de Xi'an et finit par simplement évaluer l'exactitude de l'intégration numérique.
Phaneron
1
Un bon suivi sur le blog de Larry: normaldeviate.wordpress.com/2012/10/05/…
Zen

Réponses:

43

Cela a été discuté dans mon article (publié uniquement sur Internet) "Sur un exemple de Larry Wasserman" [ 1 ] et dans un échange de blog entre moi, Wasserman, Robins et d'autres commentateurs sur le blog de Wasserman: [ 2 ]

La réponse courte est que Wasserman (et Robins) génèrent des paradoxes en suggérant que les prieurs dans des espaces de grandes dimensions "doivent" avoir des caractéristiques qui impliquent que le paramètre d'intérêt est connu a priori avec une quasi-certitude ou qu'un problème clairement pertinent (biais de sélection) est connu avec la quasi-certitude de ne pas être présent. En fait, les priors sensibles ne présenteraient pas ces caractéristiques. Je suis en train d'écrire un article de blog résumé pour rassembler tout cela. Il existe un excellent article paru en 2007, qui montre les approches bayésiennes sensées des exemples que Wasserman et Ritov considèrent, de Hameling et Toussaint: «Les estimateurs bayésiens du problème de Robins-Ritov» [ 3 ]

Chris Sims
la source
12
Merci pour votre contribution, Prof. Sims. Êtes-vous d'accord avec ma réponse ci-dessous? PS Nous avons maintenant des prix Nobel sur SE. Comment sur cela? nobelprize.org/nobel_prizes/economics/laureates/2011/sims.html
Zen
1
@ChrisSims Professeur Sims Merci d'être venu et d'avoir balayé ma réponse avec votre réponse très autoritaire!
Michael Chernick
4
Je suis alarmé par le fait que cette réponse a le total de votes le plus élevé (pour le moment). Comme le note le professeur Wasserman, la réponse du professeur Sims concerne un casse-tête complètement différent de celui sur lequel Zen s'est interrogé. J'en déduis que la plupart des gens l'ont voté sans avoir lu et compris les liens fournis par Sims.
Cyan
3
Cyan, vous trouverez les commentaires du professeur Sim concernant ce puzzle dans Link [1], WassermanComment.pdf, p. 10, section VII. Postscript 2.
madprob
43

Je ne vois pas beaucoup d'attrait dans cet exemple, en particulier comme une critique potentielle des Bayésiens et de la vraisemblance-wallahs ... La constante est connue, elle est égale à Si est le seul " unknown "dans l'image, étant donné un échantillon , le problème ne pose aucun problème statistique et je ne suis pas d'accord pour dire qu'il existe des estimateurs de . Ni priors sur (autre que la masse de Dirac sur la valeur ci-dessus). Ce n’est pas du tout un problème statistique, mais plutôt un problème numérique .1 /X g ( x ) d x c x 1 , , x n c cc

1/Xg(x)dx
cx1,,xncc

Que l'échantillon puisse être utilisé via une estimation de densité (fréquentiste) pour fournir une approximation numérique de n'est qu'une curiosité. Pas une critique d'approches statistiques alternatives: je pourrais aussi utiliser une estimation bayésienne de la densité ... cx1,,xnc

Xi'an
la source
4
Il n'est pas possible de commencer par un bon avant et de se retrouver avec un mauvais postérieur s'il est probable que la densité est réelle!
Xi'an
Comment définir la différence entre une constante inconnue et un paramètre? Dans Introduction to Probability, de Finetti envisage de générer votre incertitude pour . Est-ce que de Finetti considère que différent de ? Sinon, observer les données changerait-il son incertitude à propos de ? Également en ce qui concerne les constantes / paramètres inconnus. Disons qu'Alice choisit une constante et tape dans , . Bien que soit une constante inconnue, Bob pourrait obtenir son précédent pour et utiliser pour en savoir plus surπcπX1,X2,,XnccRx=rnorm(100,c,1)ccxc. Pourquoi dans l'exemple de Wasserman est-il différent? c
madprob
3
Je ne suis pas de Finetti, je ne peux donc pas répondre pour lui!
Xi'an
3
Votre exemple est statistique: je reçois des observations dont la distribution sous-jacente est régie par un paramètre inconnu c . L'exemple de Larry (ou d'Ed!!) N'est pas statistique: la distribution de l'échantillon est complètement connue et n'est pas dictée par un paramètre inconnu c . Ceci est davantage illustré par la réponse de Zen : vous ne pouvez tout simplement pas écrire sans terminer par un paradoxe, car il n'y a qu'une seule valeur possible de c. f(x1,,xn|c)
Xi'an
40

Je suis d'accord que l'exemple est bizarre. Je voulais vraiment que ce soit plus un casse-tête. (L'exemple est en fait dû à Ed George.)

Cela pose la question de savoir ce que cela signifie pour quelque chose d'être "connu". Christian dit que est connu. Mais, du moins du point de vue de la probabilité purement subjective, vous ne le savez pas simplement parce qu’il peut en principe être connu. (Supposons que vous ne puissiez pas faire l'intégrale numérique.) Un bayésien subjectif considère tout comme une variable aléatoire avec une distribution, y compris .cc

En tout cas, le papier

A. Kong, P. McCullagh, X.-L. Meng, D. Nicolae et Z. Tan (2003), Une théorie des modèles statistiques pour l'intégration de Monte Carlo , J. Royal Statistic. Soc. B , vol. 65, non. 3, 585–604

(avec discussion) traite essentiellement du même problème.

L'exemple auquel Chris Sims fait référence dans sa réponse est d'une nature très différente.

Larry Wasserman
la source
3
Professeur Wasserman Merci d'être venu et d'avoir expliqué votre exemple et son histoire. J'étais un étudiant diplômé à Stanford et chevauchait avec Ed George. Le Département de statistique de Stanford était très non bayésien à cette époque, même si avec Efron et Stein, nous étions à la limite des Bayes empiriques. Cependant, le département était très ouvert d'esprit et Dennis Lindley a donné un cours de deuxième cycle en statistiques bayésiennes que j'ai suivi pendant un été. D'une manière ou d'une autre, Ed s'est converti pour devenir un Bayésien à part entière et a même écrit un article sur l'échantillonnage de Gibbs pour les nuls (bien que pas avec ce titre bien sûr).
Michael Chernick
1
J'ai et aime lire vos petits livres "Toutes statistiques" et "Toutes non paramétriques".
Michael Chernick
1
peut-être pas si par coïncidence, j'ai discuté de cet article de Kong et al. (2003), critiquant principalement l'efficacité d'utiliser des transformations de groupe sur la mesure plutôt que sur la distribution. Dernièrement, Xiao-Li m'a orienté vers une perception plus positive du papier ...
Xi'an
1
"Supposons que vous ne pouvez pas faire l'intégrale numérique." Je comprends que l’incertitude logique (dont c’est un exemple) a résisté à l’analyse malgré des efforts considérables.
John Salvatier
Par la même logique que est inconnue parce que vous ne pouvez pas la calculer, je pense que vous devriez également en conclure que la fonction est "inconnue" et mettre un a priori sur l’espace de la fonction dans lequel elle se trouve. Certainement, vous "savez". , , ... parce que vous pouvez évaluer , mais du point de vue de l'analyse fonctionnelle, je soutiens que vous ne "savez" pas ce qu'est une fonction, sauf si vous pouvez la tester par rapport à un élément du dual. l’espace, tel que l’intégration fonctionnelle. cgg(x1)g(x2)g
Nick Alger
23

Le modèle statistique proposé peut être décrit comme suit: Vous avez une fonction intégrable non négative connue et une variable aléatoire non négative . Les variables aléatoires sont supposées être conditionnellement indépendantes et identiquement distribuées, étant donné que , avec une densité conditionnelle , pour .g:RRCX1,,XnC=cfXiC(xic)=cg(xi)c>0

Malheureusement, en général, cette description d'un modèle statistique n'est pas valide. Le problème est que, par définition, doit être une densité de probabilité pour presque toutes les valeurs possibles de , ce qui est en général clairement faux. En fait, cela n’est vrai que pour la valeur unique . Par conséquent, le modèle n'est correctement spécifié que dans le cas trivial où la distribution de est concentrée à cette valeur particulière. Bien sûr, ce cas ne nous intéresse pas. Ce que nous voulons, c’est que la distribution de soit dominée par la mesure de Lebesgue, avec un fichier pdf bonne qualité .fXiC(c) cc=(g(x)dx)1CCπ

Par conséquent, en définissant , l'expression prise comme une fonction de , pour fixe , ne correspond pas à une fonction de vraisemblance réelle.x=(x1,,xn)

Lx(c)=i=1n(cg(xi)),
cx

Tout ce qui suit hérite de ce problème. En particulier, le postérieur calculé avec le théorème de Bayes est faux. Il est facile de voir cela: supposons que vous ayez un avant correct propre Notez que . Selon le calcul présenté dans l'exemple, le postérieur doit être Mais si cela est vrai, cet arrière serait toujours inapproprié, parce que diverge pour chaque taille d’échantillon .

π(c)=1c2I[1,)(c).
0π(c)dc=1
π(cx)1c2nI[1,)(c).
01c2nI[1,)(c)dc
n1

C'est impossible: nous savons que si nous commençons par un préalable approprié, notre postérieur ne peut pas être incorrect pour tous les échantillons possibles (il peut être incorrect dans un ensemble de probabilité prédictive antérieure nulle).

Zen
la source
Je suis désolé que personne n'a commenté votre réponse. Je pense que vous avez un point mais je suis un peu perplexe. Vous pouvez certainement mettre des distributions antérieures valides sur les nombres réels positifs. Pourquoi ne pourriez-vous pas définir une densité de probabilité f pour tout c> 0 si g est non négatif ayant une intégrale finie sur R ? +
Michael Chernick
1
Salut michael. Bien sûr, vous pouvez: Gamma, Lognormal, etc., etc. Je ne vois pas en quoi cela est lié à la réponse. Je ne comprends probablement pas ce que vous dites.
Zen
Eh bien, j'ai du mal à suivre votre argument. Vous dites que la densité conditionnelle pour f n'existe que pour un c mais que ce n'est pas vrai. Je ne vois pas pourquoi l'expression pour la vraisemblance est invalide et comment obtenir une preuve contradictoire en supposant un préalable correct et en montrant en quelque sorte que cela mène à une distribution postérieure inappropriée.
Michael Chernick
Il me semble que le nœud du problème réside dans le fait que les données sont vraiment indépendantes de c et ne contiennent aucune information sur c. Je pense que vous pouvez dire qu’il existe une fonction de vraisemblance impliquant c mais cette probabilité ne peut pas être maximisée en fonction de c. Pour chaque choix de c je pense qu'il y a un f = cg.
Michael Chernick
4
Tout bon avant sans aucun moment fonctionnerait également dans votre exemple. Je conviens que c'est un moyen utile de montrer que quelque chose ne va pas. Ma pensée est plus que le prior n'est pas basé sur la connaissance de . Parce que vous savez que Il n’existe qu’un seul précédent compatible avec cette information. C'est la fonction delta de dirac . Utiliser n'importe quel autre préalable est logiquement incorrect. C'est un peu comme si on disait quand n'est pas indépendant de étant donnég(.)g(.)p(c|g(.))=δ(c0g(x)dx)p(Z|XY)p(Z|X)YZX
probabiliste
11

L'exemple est un peu étrange et artificiel. La probabilité que tout se passe mal est due au fait que g est une fonction connue . Le seul paramètre inconnu est c qui ne fait pas partie de la vraisemblance. De plus, puisque g est connu, les données ne vous donnent aucune information sur f. Quand voyez-vous une telle chose dans la pratique? Donc le postérieur est juste proportionnel au prieur et toutes les informations sur c sont dans le prieur.

D'accord mais réfléchis-y. Les fréquentistes utilisent le maximum de vraisemblance et le fréquentiste s'appuie parfois aussi sur la fonction de vraisemblance. Eh bien, le fréquentiste peut estimer les paramètres d’une autre manière. Mais ce problème inventé n’a qu’un paramètre c et il n’ya pas d’information dans les données concernant c. Puisque g est connu, il n’ya pas de problème statistique lié aux paramètres inconnus qui peuvent être extraits de la période de données.

Michael Chernick
la source
Merci Michael. Situation étrange, non? Le professeur Wasserman suggère la méthode suivante pour estimer : prenons tout estimateur cohérent (fréquentiste) de la densité (une sorte d’estimateur à noyau, par exemple). Choisissez un point arbitraire et notez que est un estimateur cohérent de . cf^fxc^=f^(x)/g(x)c
Zen
4
@Zen Ok prenons cet exemple. Pourquoi collecter des données? Nous savons g. Nous pouvons donc l’intégrer numériquement pour déterminer c le niveau de précision souhaité sans avoir à estimer rien! L'hypothèse que nous ne pouvons pas calculer c, ce qui signifie que même si nous connaissons g en fonction de x, nous ne pouvons pas l'intégrer! Je pense que son exemple est faible, de même que l'argument et j'aime ses livres en général.
Michael Chernick
11

Il est ironique de constater que la méthode standard de calcul bayésien consiste à utiliser l'analyse fréquentiste des échantillons MCMC. Dans cet exemple, nous pourrions considérer que est étroitement lié à la probabilité marginale, ce que nous aimerions calculer, mais nous allons être des puristes bayésiens dans le sens où nous essayons également de faire le calcul de manière bayésienne.c

Ce n'est pas courant, mais il est possible de faire cette intégrale dans un cadre bayésien. Cela implique de placer un préalable sur la fonction (en pratique un processus gaussien), d'évaluer la fonction à certains points, de conditionner ces points et de calculer une intégrale sur la partie postérieure de la fonction . Dans cette situation, la probabilité implique l'évaluation de à un certain nombre de points, mais est par ailleurs inconnue. La probabilité est donc très différente de la probabilité donnée ci-dessus. La méthode est démontrée dans cet article http://mlg.eng.cam.ac.uk/zoubin/papers/RasGha03.pdfg()g()g()g()

Je ne pense pas que quelque chose s'est mal passé avec la méthodologie bayésienne. La probabilité écrite traite comme étant connu partout. Si tel était le cas, le problème n'aurait aucun aspect statistique. Si est supposé inconnu, sauf pour un nombre fini de points, la méthodologie bayésienne fonctionne bien.g()g()

David Rohde
la source
Surpris cela n'a pas plus de votes positifs. Cela touche au cœur du problème, à savoir l'affirmation ambiguë selon laquelle vous "savez" ce qu'est une fonction simplement parce que vous pouvez l'évaluer à tout moment. Je pense qu'un critère plus approprié pour dire que vous "connaissez" une fonction est la capacité à évaluer toute fonction linéaire continue sur celle-ci.
Nick Alger
@ Nick Alger: Les gens ont probablement perdu tout intérêt. Je ne le vote pas parce que je ne suis pas convaincu qu'il s'agisse de Bayes - le xi de l'ensemble D (xi, f (xi)) fait-il référence à xi observé dans l'étude ou généré aléatoirement par ceux-ci? Si c’est le premier, c’est Bayes mais très facile à battre avec un MC simple avec quelques secondes de temps de calcul (pour que cela ne fonctionne pas bien) ou bien pas Bayes (n’a pas conditionné en fonction des données).
Phaneron
-2

Nous pourrions élargir la définition des « connus connus» (analogue à l'extension des données afin de permettre aux données manquantes de la donnée observée mais perdue) d'inclure NULL (aucune donnée générée).

Supposons que vous ayez un précédent correct propre Définissez maintenant le modèle de données pour x

π(c)=1c2I[1,)(c).

Sic=(g(x)dx)1

fXaC(xac)fXiC(xic)=c1g(xi) {a pour tout}

Sinon,faXaC(xac)=0

Ainsi, le caractère postérieur serait 0 ou 1 (correct) mais la probabilité du modèle de données ci-dessus n'est pas disponible (car vous ne pouvez pas déterminer la condition requise dans le modèle de données).

Donc, vous faites ABC.

Dessinez un «c» de l'avant.

Maintenant approximativement par une intégration numérique et conservez «c» si cette approximation - «c» <epsilon.(g(x)dx)1

Les c conservés seront une approximation du vrai postérieur.

(La précision de l'approximation dépendra de epsilon et du caractère suffisant du conditionnement pour cette approximation.)

Phaneron
la source
-5

Attends quoi? Vous avez donc cela dépend des valeurs de . Ce n'est pas parce que vous cachez la dépendance dans un " " que vous pouvez l'ignorer?{ x i }

π(c|x)=(Πig(xi))cnπ(c),
{xi}
confus
la source
2
Cher confus: l'équation ci-dessus est fausse. Où est le dénominateur (la probabilité marginale de )? Divisez par et vous verrez que le s'annulera. Le "postérieur" dans le livre est faux pour d'autres raisons. S'il vous plaît, vérifiez ma réponse. f ( x | c )xn i = 1 g ( x i )f(xc)π(c)dci=1ng(xi)
Zen