Comment un Bayésien met-il à jour sa croyance quand quelque chose avec une probabilité 0 s'est produit?

11

Définir X:= "la pièce a une probabilité 1 d'atterrir" Supposons que l'on ait la croyance préalable: P(X)=1. Cependant, après avoir lancé la pièce une fois qu'elle a atterri la queue (E:="pièces de monnaie atterri"). Comment un bayésien devrait-il mettre à jour ses croyances afin de rester cohérent? P(X|E) n'est pas défini, car P(E)=0. Cependant, il me semble que ses croyances antérieures étant tout à fait invraisemblables (bien sûr, la probabilité 0 ne signifie pas impossible), il devrait en quelque sorte être en mesure de mettre à jour sa croyance selon une règle.

S'agit-il simplement d'un cas pathologique dans lequel la mise à jour bayésienne ne fonctionne pas ou ne suis-je pas au courant d'une solution à ce problème?

Sébastien
la source
3
Un exemple pourrait être qu'il se rend compte qu'il est une femme.
Nick Cox
7
Je pense que cette question a une portée beaucoup plus large que l'analyse bayésienne. N'est-ce pas vraiment demander ce qu'il faut faire face aux preuves que ses hypothèses sont incorrectes? J'hésiterais à qualifier ces situations de «pathologiques» car elles se produisent tout le temps. Ce qui serait vraiment pathologique, ce sont des situations où les gens refusent de changer leurs hypothèses (ou croyances) face à des preuves irréfutables. (Ces personnes sont généralement appelées "politiciens" plutôt que "bayésiens" :-).)
whuber
@whuber Je suis tout à fait d'accord pour m'amuser et mépriser les (mauvais types de) politiciens, mais la science n'est pas à l'abri non plus. Planck a remarqué dans son Autobiographie qu'une nouvelle théorie ne triomphe parfois que lorsque la génération plus âgée qui refusait de la prendre au sérieux est morte.
Nick Cox
@ Nick, je suis sûr que vous comprenez que la situation scientifique est plus complexe que cela. (Oui, la situation en politique est aussi plus complexe ...). Il y a un demi-siècle, Thomas Kuhn a été parmi les premiers à l'apprécier et à élucider les raisons plus profondes.
whuber
2
@whuber D'accord. Les bons scientifiques changent rapidement d'avis face à la logique et aux preuves, et beaucoup d'entre nous jettent de nombreuses idées moche avant même d'essayer de les rendre publiques. (Minute detail: C'était le livre le plus célèbre de Kuhn où je pense avoir rencontré la référence Planck pour la première fois.)
Nick Cox

Réponses:

6

Toute probabilité postérieure est valable dans ce cas

C'est une question intéressante, qui entre dans le territoire des fondements de la probabilité. Il existe quelques approches possibles ici, mais pour des raisons que j'expliquerai bientôt, l'approche que je préfère est de donner une définition plus large de la probabilité conditionnelle qui est analogue à sa définition lorsqu'il s'agit de variables aléatoires continues. (Les détails de cette méthode sont présentés ci-dessous.) Dans ce cas particulier, cela conduit à la conclusion que le bayésien peut avoir n'importe quelle croyance postérieure concernantX, et cela donne un ensemble cohérent de croyances (bien qu'ils aient observé un événement qu'ils croient avoir une probabilité nulle).

L'avantage de cette approche est qu'elle donne une distribution postérieure bien définie, et permet au bayésien de mettre à jour ses croyances à condition d'observer un événement qui devait se produire avec une probabilité nulle. Le postérieur est mis à jour essentiellement arbitrairement (toute probabilité postérieure est également cohérente), mais cette flexibilité n'est pas surprenante compte tenu de ce qui s'est produit. Dans ce cas, différents bayésiens ayant les mêmes croyances antérieures pourraient légitimement tirer des conclusions postérieures différentes, du fait qu'ils ont tous observé un événement avec une probabilité nulle a priori .


Probabilité conditionnelle pour les variables aléatoires continues: Lorsque nous avons affaire à des variables aléatoires continues, la fonction de probabilité conditionnelle est définie par la dérivée de Radon-Nikodym , et nécessite essentiellement que la fonction satisfasse à la loi de probabilité conjointe. SiX et E étaient des variables aléatoires continues (plutôt que des événements discrets) dans un espace de probabilité (Ω,g,P) alors nous définirions la fonction de probabilité conditionnelle p(x|e) comme toute fonction mesurable non négative qui satisfait l'équation intégrale:

p(x)=Ep(x|e) dP(e)for all xXG.

Depuis p(x) est également défini via le dérivé Radon-Nikodym, cela signifie implicitement que p(x|e) peut être n'importe quelle fonction mesurable non négative qui satisfait l'équation intégrale:

P(XA)=AEp(x|e) dP(e) dxfor all AG.

Cela donne une solution non unique pour la fonction de probabilité conditionnelle, bien qu'en pratique, chaque solution soit "presque sûrement" équivalente (c'est-à-dire qu'elle ne diffère que sur un ensemble de résultats avec une probabilité nulle), donc il n'y a pas de problème avec la non-unicité .

Définition de la probabilité conditionnelle pour les événements discrets: La définition standard de la probabilité conditionnelle pour les événements discrets est la formule de ratio bien connue, où le dénominateur est la probabilité de l'événement de conditionnement. Évidemment, dans le cas où l'événement de conditionnement a une probabilité nulle, cet objet n'est pas défini. La solution évidente ici est d'élargir la définition d'une manière analogue à la méthode utilisée dans le cas continu. Autrement dit, nous définissons la paire de probabilités conditionnelleP(X|E) et P(X|E¯) comme toute paire de valeurs entre zéro et un qui satisfont l'équation:

P(X)=P(X|E)×P(E)+P(X|E¯)×(1P(E)).

Dans le cas stipulé dans la question, nous avons la conviction préalable P(X)=1 et la distribution d'échantillonnage P(E|X)=0, qui conduit à P(E)=0. La substitution de ces valeurs dans l'équation ci-dessus donne:

1=P(X|E)×0+P(X|E¯)×1.

Nous pouvons voir que cette équation est satisfaite en prenant P(X|E¯)=1 et n'importe quel 0P(X|E)1. Ainsi, la probabilité conditionnelle (postérieure)P(X|E)peut être de façon cohérente toute valeur comprise entre zéro et un. Lorsque nous disons que cela est "cohérent", nous voulons simplement dire que la probabilité postérieure n'est pas incompatible avec les autres probabilités stipulées dans le problème (c'est-à-dire les probabilités a priori et d'échantillonnage).


Pourquoi cette approche est la plus logique: Il est tout à fait possible qu'une analyse bayésienne puisse impliquer l'observation d'un événement discret qui a une probabilité nulle stipulée dans la distribution précédente. Par exemple, dans un modèle standard de retournement de pièces, nous stipulons une distribution de Bernoulli pour le résultat des têtes / queues, mais il est possible que la pièce se pose sur son bord (n'étant donc ni têtes ni queues). Les cerveaux ne devraient pas exploser dans ce cas, et il incombe donc au raisonnement bayésien d'avoir une manière bien définie de procéder dans ce cas.

Le principal avantage de l'approche que j'ai décrite est qu'elle conduit toujours à au moins une valeur admissible pour la probabilité postérieure (c'est-à-dire que la probabilité postérieure est bien définie ). La probabilité postérieure n'est pas définie de manière unique, mais c'est une conséquence naturelle du fait qu'il existe plusieurs valeurs qui sont également cohérentes avec l'observation d'échantillonnage à probabilité nulle. Cette approche signifie que le bayésien est libre de stipuler toute probabilité postérieure, et cela est aussi cohérent que les autres. (Gardez à l'esprit que lorsque nous disons «cohérent» ici, nous parlons de cohérence avec une croyance antérieure qui stipulait une probabilité nulle pour un événement discret qui s'est réellement produit, donc la cohérence avec cela n'est pas une barre haute!)

Il y a un autre avantage majeur à cette approche , qui est qu'elle permet au bayésien de mettre à jour ses croyances en réponse à l'observation d'un événement qui n'avait aucune probabilité d'échantillonnage sous le précédent, et en particulier, le bayésien peut maintenant réviser ses croyances de sorte qu'ils n'attribuent plus de probabilité nulle à cet événement . Dans l'exemple que vous donnez, le Bayésien avait auparavant la conviction queXest vrai presque sûrement, buy a ensuite observé un événement avec une probabilité d'échantillonnage nulle conditionnelle à cet événement. Maintenant, le Bayésien est libre de mettre à jour sa croyance à une probabilité postérieure pourX ce n'est pas un (et donc une probabilité postérieure correspondante pourX¯ce n'est pas zéro). Donc, en substance, le Bayésien peut maintenant dire "Oh merde! C'était une idiote avant! Permettez-moi de mettre à jour ma croyance en cet événement afin qu'il ne se produise plus presque sûrement!" De plus, il ne s'agit pas d'un changement ponctuel , mais d'une mise à jour «cohérente» légitime effectuée selon le théorème de Bayes.

Ben - Réintègre Monica
la source
3

Il y a une supposition implicite dans tout raisonnement, bayésien ou autre, que nous savons tout ce qui pourrait arriver et que nous l'expliquions. Si quelque chose se produit qui est impossible sous le modèle, cela signifie simplement que cette hypothèse est fausse. La chose de principe à faire est de revenir en arrière et d'étendre le modèle, et de recommencer. Au moins dans un cadre bayésien, ce processus est relativement facile à formaliser - au lieu de l'inférence dans un modèle unique, on ferait l'inférence dans un ensemble de modèles.

À un moment donné, notre capacité humaine à imbriquer des modèles dans des modèles doit s'épuiser. Même avec une aide automatisée (c'est-à-dire des ordinateurs ou autre), il doit y avoir une limite supérieure à la complexité de la "mère de tous les modèles". Je n'ai aucune idée de ce qu'il faut faire dans ces circonstances, mais nous sommes certainement très loin de cela, lorsque nous travaillons avec des modèles paramétriques typiques trouvés dans les applications.

Robert Dodier
la source
2

Ceci est lié au domaine de la logique. en particulier, une fausse déclaration implique toutes les autres déclarations, vraies ou fausses. Dans votre scénarioX est une fausse déclaration. Cela signifie que nous pouvons écrire XS pour toute autre proposition S. Par exemple, nous avonsXE (cela implique des queues) et aussi XEc (cela implique pas la queue aussi)!

Cela est également conforme à la solution de Ben (définissez la valeur postérieure sur la valeur souhaitée). Évidemment, cela n'est pas vraiment utile dans les applications. Car je suis tout à fait convaincu de ne pas avoir besoin d'un cadre mathématique pour inventer les résultats que je veux.

Ce que cela signifie, c'est qu'il ne faut pas inclure de fausses déclarations connues dans leurs probabilités antérieures. C'est la même chose que l'on ne devrait pas utiliser de fausses déclarations sur les données. En ce qui concerne le traitement des problèmes de type "cygne noir", nous pouvons résoudre ce problème de manière conceptuelle en attribuant des chances minimes mais non nulles que nos "hypothèses de travail" soient erronées. Si vous appelez cette déclarationAw comme "mes hypothèses de travail sont correctes", et définissez-la avant égale à p(Aw)=1-ϵ. Il existe certaines situations impossibles dans l'hypothèse de travail, ce qui signifie que la probabilitép(jempossjeble|UNEw)=0 pour certaines valeurs des "données" qui existent dans la région "impossible" jempossjeblelorsque les hypothèses de travail se vérifient. Appelez cet événementQ: =jempossjeble. Cela signifie également quep(Qc|UNEw)=1-p(Q|UNEw)=1. Nous supposons quep(Q|UNEwc)=δ>0(c'est-à-dire que des données "impossibles" sont possibles si l'hypothèse de travail est fausse). Et enfin çap(Qc|UNEwc)=1-p(Q|UNEwc)=1-δ.

Nous avons maintenant deux scénarios. La première est que les données sont "normales" (ce qui signifieQc est vrai)

p(UNEw|Qc)=p(UNEw)p(Qc|UNEw)p(UNEw)p(Qc|UNEw)+p(UNEwc)p(Qc|UNEwc)=1-ϵ1-ϵ+ϵ(1-δ)=1-ϵ1-δϵ>1-ϵ

La seconde est que les données sont "impossibles" (ce qui signifie Q est vrai)

p(Aw|Q)=p(Aw)p(Q|Aw)p(Aw)p(Q|Aw)+p(Awc)p(Q|Awc)=00+ϵδ=0.

Espérons maintenant que cela montre très clairement que si vos hypothèses sont satisfaites et que vous aviez déjà une probabilité antérieure très élevée, le postérieur est au moins aussi élevé (et souvent plus élevé). Donc, quelle que soit la valeur deϵvous utilisez pour représenter "fondamentalement impossible" avant de voir les données, vous devez utiliser une valeur plus petite après avoir vu les prédictions confirmées.

Lors des calculs, en supposant p(Aw|Qc)=1ne vous égarera pas. Donc, vous "absorbez"Aw,Qc dans les informations préalables

Maintenant, qu'en est-il quand l'impossible se produit? Eh bien, vous devez déballer et modifier votre probabilité et avant en fonction de ce qui n'allait pas avec votre hypothèse.

probabilitéislogique
la source
1
C'est une réponse intéressante (+1). J'ai pris la liberté de faire une petite correction pour tenir compte du cas oùγ=1, ce qui n'était pas exclu dans vos conditions antérieures. Si vous aviez l'intention d'imposer la restrictionγ<1pour obtenir une inégalité stricte, veuillez modifier en conséquence.
Ben - Réintègre Monica
J'ai réalisé que γ=1δdans ma réponse originale. Commeδ>0cela signifie que l'inégalité doit être stricte.
probabilitéislogic