Arithmétique pour la mise à jour des probabilités à l'aide du théorème de Bayes

8

Cela peut être une question élémentaire, c'est pourquoi je n'ai pas pu le trouver sur Stackexchange ou Mathoverflow, mais j'ai des problèmes avec l'arithmétique impliquée dans la mise à jour des probabilités en utilisant le théorème de Bayes pour un problème sur lequel je travaille.

Contexte:

J'essaie de donner des prévisions de probabilité d'événements futurs qui n'ont pas ou peu de précédents. Contrairement à la plupart de la littérature et des textes sur Bayes qui utilisent des distributions précédemment connues pour donner des probabilités d'événements futurs dans des paramètres similaires - ma situation est fondée sur l'opinion d'experts uniquement avec peu ou pas de distributions raisonnables à référencer.

Exemple:

GM a annoncé qu'ils développaient une nouvelle voiture mais n'a pas dit quand elle serait publiée. Le directeur de production de KIA doit savoir quand il sera prêt à la publier afin de pouvoir sortir sa nouvelle voiture à peu près en même temps.

KIA sait que la nouvelle voiture a besoin des composants suivants pour être prête pour la libération (1) moteur, (2) transmission, (3) carrosserie, (4) roues et suspension. Les ingénieurs expérimentés de KIA affirment que pour un nouveau projet comme celui-ci, ils sont convaincus à 90% qu'il peut être achevé en deux ans. KIA a également découvert que GM avait fait un test avec la nouvelle transmission dans un autre SUV et il fonctionnait comme prévu avec un taux de réussite de 95%. Les mêmes ingénieurs ont déclaré qu'étant donné ce test de transmission, une voiture peut être achevée dans ce délai 70% du temps.

D'après ce que je comprends, à ce stade, KIA peut commencer le calcul bayésien avec l'échantillon initial comme ci-dessous:

   A = GM will release the new car in two years
   B1 = GM will successfully test a new transmission
   P(A) = Prior Probability that GM will release the new car in two years
   P(B1) = Probability that GM will successfully test a new transmission
   P(B1|A) = Likelihood that given a successful transmission test, the car will be released within 2 years

Affectation de valeurs comme suit

   P(A) = .9
   P(B1) = .95
   P(B1|A) = .7

P(UNE|B1)=P(UNE)P(B1|UNE)P(UNE)P(B1|UNE)+P(UNE¯)P(B1|UNE¯)

.9545=.9.7(.9.7)+(.1.3)

Peu de temps après que le département des statistiques de KIA a donné cette mise à jour, GM a annoncé qu'il avait testé son nouveau moteur et qu'il avait un taux de réussite de 98% sur tous ses tests. Les ingénieurs de KIA ont déclaré qu'en général, si un test de moteur réussit, il y a une probabilité de 80% qu'une voiture soit terminée à temps - mais qu'ils ne savaient pas quelle était la probabilité du temps de réalisation global à la fois et le moteur et un test de transmission était.

Les valeurs de notre deuxième élément de preuve, qui doivent être notées, sont maintenant indépendantes dans ce cas - mais ne sont pas dans tous les cas, par exemple, le corps doit continuer après la suspension:

   P(B2) = .98
   P(B2|A) = .8

Voici donc où j'ai du mal: intégrer arithmétiquement le P postérieur (A | B1) dans le calcul de P (A | B1, B2), étant donné que les a priori doivent rester constants. Comme je l'ai mentionné, certains événements au sein de {B1...Bn} sont indépendants, d'autres sont conditionnels.

J'ai vu l'entrée wikipedia qui décrit l'extension de trois événements:

P(UNE|B1,B2)=P(B2|UNE,B1)P(B1|UNE)P(UNE)P(B2|B1)P(B1)

mais qu'en est-il des quatrième et cinquième extensions?

La plupart des livres et des ressources en ligne que je possède ne montrent pas les étapes de mise à jour des anciens de quelque manière que ce soit que je puisse discriminer. Il se peut que je sois trop éloigné de mes jours de premier cycle pour l'interpréter, mais ma crainte est que j'ai besoin d'avoir une expérience significative en théorie des ensembles et en mathématiques de niveau supérieur afin de faire ce qui semble être un simple calcul. Cet échange est le plus proche que j'ai pu trouver et même il ne le traverse pas. Le fait que je n'ai pas trouvé après une semaine de recherche un tutoriel de base sur la mécanique de mise à jourLe théorème de Bayes (ne vous dérange pas sur ce qu'est le théorème de Bayes et comment il fonctionne - il y en a plus qu'assez) au-delà de la première implémentation, me fait penser que ce n'est pas un calcul trivial. Existe-t-il un moyen simple de faire cette mise à jour sans mathématiques de niveau supérieur?

Remarque: Je suis conscient de l'ironie liée à la difficulté inhérente au "problème de mise à jour" du WRT Bayes, car Yudkowski en parle depuis un certain temps. Je supposais, peut-être à tort, que ceux qui y travaillaient faisaient référence à des itérations beaucoup plus complexes, mais je suis conscient que cela pourrait être le cas si je rencontre ce problème.

Andrew
la source

Réponses:

10

Je vais commencer par répondre à votre question sur la mise à jour des événements avec les "quatrième et cinquième extensions". Comme vous le soupçonniez, l'arithmétique est en effet assez simple.

Rappelons d'abord comment le théorème de Bayes est dérivé de la définition de la probabilité conditionnelle:

entrez la description de l'image ici

En conditionnant sur A dans le numérateur, nous pouvons arriver à la forme la plus familière:

entrez la description de l'image ici

Considérez maintenant si nous n'avons pas seulement B, mais plutôt 2 événements ou plus B_1, B_2 ... Pour cela, nous pouvons dériver l'extension de Bayes à trois événements que vous citez en utilisant la règle de probabilité en chaîne , qui est (de wikipedia):

entrez la description de l'image ici

Pour B_1 et B_2, nous commençons par la définition de la probabilité conditionnelle

entrez la description de l'image ici

Et utilisez la règle de chaîne à la fois sur le numérateur et le dénominateur:

entrez la description de l'image ici

Et juste comme ça, nous avons redéfini l'équation que vous citez de wikipedia. Essayons d'ajouter un autre événement:

entrez la description de l'image ici

entrez la description de l'image ici

L'ajout d'un cinquième événement est tout aussi simple (un exercice pour le lecteur). Mais vous remarquerez sûrement un modèle, à savoir que la réponse à la version à trois événements est contenue dans la réponse à la version à quatre événements, afin que nous puissions réécrire ceci comme:

entrez la description de l'image ici

entrez la description de l'image ici

Ou plus généralement, la règle de mise à jour du postérieur après le nième élément de preuve:

entrez la description de l'image ici

C'est cette fraction qui vous intéresse. Maintenant, ce dont vous parlez, c'est que ce n'est peut-être pas facile à calculer - non pas à cause de difficultés arithmétiques, mais à cause des dépendances au sein des B. Si nous disons que chaque B est distribué indépendamment, la mise à jour devient très simple:

entrez la description de l'image ici

(En fait, vous remarquerez que c'est une simple application du théorème de Bayes!) La complexité de cette fraction dépend de laquelle des preuves précédentes votre nouvelle preuve dépend. L'importance de la dépendance conditionnelle entre vos variables et vos preuves est précisément la raison pour laquelle les réseaux bayésiens ont été développés (en fait, ce qui précède décrit la factorisation des réseaux bayésiens).

Maintenant, parlons de votre exemple. Premièrement, votre interprétation du mot problème a un problème. Vos interprétations de 70% et 80% sont, respectivement,

P(B1|A) = .7
P(B2|A) = .8

Mais (selon vos définitions) A signifie que la voiture sera terminée à temps, B_1 signifie que GM teste la transmission avec succès et B_2 signifie qu'il y a un test de moteur réussi, ce qui signifie que vous les faites reculer - ils devraient

P(A|B1) = .7
P(A|B2) = .8

Maintenant, cependant, le mot problème n'a pas vraiment de sens. Voici les trois problèmes:

1) Ils vous donnent effectivement ce que vous recherchez: en disant "étant donné ce test de transmission, une voiture peut être achevée dans ce délai 70% du temps", puis en demandant "quelle est la probabilité qu'une voiture soit achevée à l'époque".

2) Les preuves vous poussent dans la direction opposée à laquelle le bon sens pourrait s'attendre. La probabilité était de 90% avant que vous ne soyez au courant de la transmission, comment savoir qu'un test réussi peut le réduire à 70%?

3) Il existe une différence entre un «taux de réussite de 95%» et une probabilité de 95% de réussite d'un test. Le taux de réussite peut signifier beaucoup de choses (par exemple, quelle proportion une pièce ne casse pas), ce qui en fait une question d'ingénierie sur la qualité de la pièce, pas une évaluation subjective de «dans quelle mesure sommes-nous sûrs que le test a réussi? À titre d'exemple illustratif, imaginez que nous parlions d'une pièce critique d'un navire-fusée, qui a besoin d'au moins 99,999% de chances de fonctionner pendant un vol. Dire "La pièce se casse 20% du temps" ne signifie pas qu'il y a 80% de chances que le test réussisse, et donc 80% de chances que vous puissiez lancer la fusée la semaine prochaine. Il faudra peut-être 20 ans pour développer et corriger la partie - il n'y a aucun moyen de savoir sur la base des informations qui vous sont données.

Pour ces raisons, le problème est très mal formulé. Mais, comme je l'ai indiqué ci-dessus, l'arithmétique impliquée dans la mise à jour basée sur plusieurs événements est assez simple. En ce sens, j'espère avoir répondu à votre question.

ETA: Sur la base de vos commentaires, je dirais que vous devriez retravailler la question de fond en comble. Il faut certainement se débarrasser de l'idée du «taux de réussite» à 95% / 98%, qui dans ce contexte est une question d'ingénierie et non une statistique bayésienne. Deuxièmement, les estimations de «Nous sommes convaincus à 70%, étant donné que cette pièce fonctionne, que la voiture sera prête dans deux ans» est une probabilité postérieure, pas un élément de preuve; vous ne pouvez pas l'utiliser pour mettre à jour ce que vous avez déjà.

Dans la situation que vous décrivez, vous avez besoin des quatre parties pour travailler avant la date limite. Ainsi, la chose la plus intelligente à faire serait simplement de dire "Quelle est la probabilité que chaque pièce fonctionne dans deux ans?" Ensuite, vous prenez le produit de ces probabilités (en supposant l'indépendance), et vous avez la probabilité que tout fonctionne dans deux ans.

En prenant du recul, il semble que vous essayez de combiner plusieurs prédictions subjectives en une seule. Dans ce cas, ma recommandation serait de licencier vos ingénieurs. Pourquoi? Parce qu'ils vous disent qu'ils sont convaincus à 90% qu'elle sera prête dans deux ans, mais ensuite, après avoir appris un test de transmission réussi, abaisser leurs estimations à 70%. Si c'est le talent avec lequel nous travaillons, aucune statistique bayésienne ne nous aidera :-)

Plus sérieusement - peut-être si vous étiez plus précis sur le type de problème (qui est probablement quelque chose comme la combinaison de P (A | B1) et P (A | B2)), je pourrais vous donner quelques conseils supplémentaires.

David Robinson
la source
Merci, cela aide à clarifier le niveau de difficulté avec lequel je travaille. Pour ce qu'il vaut, j'ai conçu le problème afin qu'il puisse y avoir un problème inhérent. En ce qui concerne la formulation du problème: chaque P (B_n | A) est censé être indépendant de la probabilité antérieure. En utilisant l'exemple, si GM termine un composant particulier, les ingénieurs ont une probabilité que la voiture soit terminée à temps, indépendamment des autres composants.
Andrew
Je ne sais pas trop ce que vous voulez dire - le problème avec le mot problème que vous donnez n'est pas le niveau de difficulté, mais plutôt le libellé. Est-ce un problème d'origine ou une mission?
David Robinson
Pardonnez-moi - je suis en train de m'adapter à la coupure du paragraphe Maj + Entrée dans les commentaires. Comme je l'ai mentionné dans l'édition, c'est mon propre exemple qui peut être mal formulé comme vous l'avez mentionné. Les ensembles avec lesquels je travaille sont généralement disjoints par rapport à leur source de données, donc je dois souvent déterminer comment une nouvelle donnée qui ne s'appuie pas nécessairement sur d'autres données du même ensemble ou du même groupe affecte une hypothèse, c'est pourquoi Je l'ai écrit comme je l'ai fait. Dans l'exemple ci-dessus, imaginez que les ingénieurs ont une probabilité de réussite globale basée sur chaque composant indépendamment.
Andrew
Voir les modifications. Êtes-vous sûr qu'ils ont une estimation de l'achèvement global basée sur chaque composant indépendamment? Ou ont-ils une estimation de l'achèvement de cette composante après la réussite du test?
David Robinson
Comme vous l'avez mentionné, il semble que j'essaie de mettre à jour P (A | B1) avec P (A | B2), P (A | B3) ... P (A | Bn). Si vous préférez, nous pouvons retirer cette discussion des commentaires par e-mail. [email protected]
Andrew
0

Il existe de nombreuses façons d'étendre ce résultat. La forme générale est que

P(UNE|B,C,...)=P(UNE,B,C,...)P(B,C,,...)
Il existe de nombreuses façons d'écrire à la fois le numérateur et le dénominateur. Vos formules donnent deux exemples (en supposantB2 et Csont la même chose). Bien sûr, pour un problème donné, vous devez formuler le LHS en écrivant le RHS en termes de quantités que vous connaissez réellement; si cela peut être fait pour votre problème particulier vaut probablement une question plus spécifique, sur ce site.

Lorsque les variables (UNE,B,C,) etc. sont continus, le calcul de la partie postérieure devient en effet beaucoup plus compliqué, dans la plupart des problèmes, et des techniques mathématiques / statistiques de niveau supérieur sont nécessaires.

client
la source