Combiner probabilités / informations provenant de différentes sources

26

Disons que j'ai trois sources indépendantes et chacune d'elles fait des prévisions pour la météo de demain. Le premier dit que la probabilité de pluie demain est de 0, puis le second dit que la probabilité est de 1, et enfin le dernier dit que la probabilité est de 50%. Je voudrais connaître la probabilité totale compte tenu de ces informations.

Si vous appliquez le théorème de multiplication pour les événements indépendants, j'obtiens 0, ce qui ne semble pas correct. Pourquoi n'est-il pas possible de multiplier les trois si toutes les sources sont indépendantes? Existe-t-il un moyen bayésien de mettre à jour le précédent lorsque j'obtiens de nouvelles informations?

Remarque: Ce ne sont pas des devoirs, c'est quelque chose auquel je pensais.

Biela Diela
la source
1
Savez-vous à quel point les sources indépendantes sont fiables
Dilip Sarwate
Non, a priori je suppose que toutes les sources sont également fiables.
Biela Diela
3
C'est aussi une bonne question à laquelle je pense. J'ajouterais une deuxième question: si toutes les prédictions étaient de 0,75, quelle serait la probabilité combinée? Supérieur à 0,75? Quel serait un cadre formel pour analyser ce genre de questions?
Karsten W.
2
Il n'y a pas vraiment assez d'informations; nous avons besoin d'un modèle de la façon dont les prévisions devraient se rapporter à la réalité.
Glen_b -Reinstate Monica
Je ne sais pas exactement ce que l'on entend par «toutes les sources sont également fiables» lorsque les sources fournissent des déclarations concernant les probabilités ou les niveaux de confiance / confiance. Si nous parlons de la probabilité-qu'une-certaine-probabilité-a-une-valeur donnée qui semble soulever des problèmes conceptuels. BTW, si les sources 1 et 2 sont également fiables, elles doivent toutes deux avoir raison avec une probabilité de 0,50 ... (et la probabilité de pluie est de 1/2).
AG

Réponses:

32

Vous posez trois questions: (a) comment combiner plusieurs prévisions pour obtenir une seule prévision, (b) si l'approche bayésienne peut être utilisée ici, et (c) comment gérer les probabilités nulles.

La combinaison de prévisions est une pratique courante . Si vous avez plusieurs prévisions que si vous prenez la moyenne de ces prévisions, la prévision combinée résultante devrait être meilleure en termes d'exactitude que n'importe laquelle des prévisions individuelles. Pour les calculer en moyenne, vous pouvez utiliser une moyenne pondérée où les pondérations sont basées sur des erreurs inverses (c.-à-d. La précision) ou le contenu de l'information . Si vous aviez des connaissances sur la fiabilité de chaque source, vous pouvez attribuer des pondérations proportionnelles à la fiabilité de chaque source, de sorte que des sources plus fiables ont un impact plus important sur la prévision combinée finale. Dans votre cas, vous n'avez aucune connaissance de leur fiabilité, donc chacune des prévisions a le même poids et vous pouvez donc utiliser la moyenne arithmétique simple des trois prévisions

0%×.33+50%×.33+100%×.33=(0%+50%+100%)/3=50%

Comme cela a été suggéré dans les commentaires de @AndyW et @ArthurB. , d'autres méthodes que la moyenne pondérée simple sont disponibles. Beaucoup de ces méthodes sont décrites dans la littérature sur la moyenne des prévisions d'experts, que je ne connaissais pas auparavant, alors merci les gars. En faisant la moyenne des prévisions d'experts, nous voulons parfois corriger le fait que les experts ont tendance à régresser vers la moyenne (Baron et al, 2013), ou à rendre leurs prévisions plus extrêmes (Ariely et al, 2000; Erev et al, 1994). Pour y parvenir, on pourrait utiliser des transformations de prévisions individuelles , par exemple la fonction logitpi

(1)logit(pi)=log(pi1pi)

les chances d' puissancea

(2)g(pi)=(pi1pi)a

, ou transformation plus générale de la forme0<a<1

(3)t(pi)=piapia+(1pi)a

où si aucune transformation n'est appliquée, si a > 1 les prévisions individuelles sont rendues plus extrêmes, si 0 < a < 1 les prévisions sont rendues moins extrêmes, ce qui est montré sur l'image ci-dessous (voir Karmarkar, 1978; Baron et al, 2013 ).a=1a>10<a<1

entrez la description de l'image ici

Après une telle transformation, les prévisions sont moyennées (en utilisant la moyenne arithmétique, la médiane, la moyenne pondérée ou une autre méthode). Si les équations (1) ou (2) ont été utilisées, les résultats doivent être rétrotransformés en utilisant le logit inverse pour (1) et les cotes inverses pour (2). Alternativement, la moyenne géométrique peut être utilisée (voir Genest et Zidek, 1986; cf. Dietrich et List, 2014)

(4)p^=i=1Npiwii=1Npiwi+i=1N(1pi)wje

ou approche proposée par Satopää et al (2014)

(5)p^=[je=1N(pje1-pje)wje]une1+[je=1N(pje1-pje)wje]une

sont des poids. Dans la plupart des cas, des poids égaux w i = 1 / N sont utilisés, sauf si des informations a priori suggèrent qu'il existe un autre choix. De telles méthodes sont utilisées pour établir la moyenne des prévisions des experts afin de corriger la sous-confiance ou l'excès de confiance. Dans d'autres cas, vous devez déterminer si la transformation des prévisions vers plus ou moins extrêmes est justifiée, car elle peut faire en sorte que l'estimation agrégée résultante sorte des limites marquées par la prévision individuelle la plus basse et la plus élevée.wjewje=1/N

Si vous avez une connaissance a priori de la probabilité de pluie, vous pouvez appliquer le théorème de Bayes pour mettre à jour les prévisions étant donné la probabilité a priori de pluie de la même manière que celle décrite ici . Il existe également une approche simple qui pourrait être appliquée, à savoir calculer la moyenne pondérée de vos prévisions (comme décrit ci-dessus) où la probabilité antérieure π est traitée comme un point de données supplémentaire avec un certain poids prédéfini w π comme dans cet exemple IMDB (voir aussi la source , ou ici et ici pour discussion; cf. Genest et Schervish, 1985), c'est-à-direpjeπwπ

(6)p^=(je=1Npjewje)+πwπ(je=1Nwje)+wπ

Cependant, il ne résulte pas de votre question que vous avez une connaissance a priori de votre problème, vous utiliserez donc probablement un uniforme au préalable, c'est-à-dire supposez a priori chances de pluie et cela ne change pas vraiment grand-chose dans le cas de l'exemple que vous avez fourni.50%

Pour gérer les zéros, plusieurs approches différentes sont possibles. Vous devez d'abord noter que risque de pluie n'est pas une valeur vraiment fiable, car il dit qu'il est impossible qu'il pleuve. Des problèmes similaires se produisent souvent dans le traitement du langage naturel lorsque dans vos données vous n'observez pas certaines valeurs qui peuvent éventuellement se produire (par exemple, vous comptez les fréquences des lettres et dans vos données, aucune lettre inhabituelle ne se produit du tout). Dans ce cas, l'estimateur classique de probabilité, c'est-à-dire0%

pje=njejenje

est un nombre d'occurrences de i ème valeur (sur d catégories), vous donne p i = 0 si n i = 0 . C'est ce qu'on appelle un problème de fréquence nulle . Pour ces valeurs, vous savez que leur probabilité est non nulle (elles existent!), Donc cette estimation est évidemment incorrecte. Il existe également une préoccupation pratique: la multiplication et la division par des zéros conduisent à des zéros ou à des résultats indéfinis, de sorte que les zéros sont problématiques dans le traitement.njejepje=0nje=0

Le correctif facile et couramment appliqué consiste à ajouter un constant à vos décomptes, de sorte queβ

pje=nje+β(jenje)+β

Le choix commun pour les est 1 , c. -à- application uniforme avant sur la base de la règle de Laplace de la succession , 1 / deux pour estimer Kritchevski-Trofimov, ou 1 / d pour estimateur Schurmann-Grassberger (1996). Notez cependant que ce que vous faites ici, c'est que vous appliquez des informations hors données (antérieures) dans votre modèle, afin qu'elles aient une saveur bayésienne subjective. En utilisant cette approche, vous devez vous souvenir des hypothèses que vous avez faites et les prendre en considération. Le fait que nous ayons de forts a prioriβ11/21/la connaissance qu'il ne devrait pas y avoir de probabilités nulles dans nos données justifie directement l'approche bayésienne ici. Dans votre cas, vous n'avez pas de fréquences mais de probabilités, vous ajouteriez donc une très petite valeur afin de corriger les zéros. Notez cependant que, dans certains cas, cette approche peut avoir de mauvaises conséquences (par exemple lors du traitement des journaux ), elle doit donc être utilisée avec prudence.


Schurmann, T. et P. Grassberger. (1996). Estimation d'entropie des séquences de symboles. Chaos, 6, 41-427.

Ariely, D., Tung Au, W., Bender, RH, Budescu, DV, Dietz, CB, Gu, H., Wallsten, TS et Zauberman, G. (2000). Les effets de la moyenne des estimations de probabilité subjective entre et au sein des juges. Journal of Experimental Psychology: Applied, 6 (2), 130.

Baron, J., Mellers, BA, Tetlock, PE, Stone, E. et Ungar, LH (2014). Deux raisons de rendre les prévisions de probabilité agrégées plus extrêmes. Analyse des décisions, 11 (2), 133-145.

Erev, I., Wallsten, TS et Budescu, DV (1994). Sur et sous-confiance simultanée: le rôle de l'erreur dans les processus de jugement. Revue psychologique, 101 (3), 519.

Karmarkar, États-Unis (1978). Utilité subjectivement pondérée: une extension descriptive du modèle d'utilité attendu. Comportement organisationnel et performance humaine, 21 (1), 61-72.

Turner, BM, Steyvers, M., Merkle, EC, Budescu, DV et Wallsten, TS (2014). Agrégation des prévisions via recalibrage. Apprentissage automatique, 95 (3), 261-289.

Genest, C. et Zidek, JV (1986). Combiner les distributions de probabilités: une critique et une bibliographie annotée. Science statistique, 1 , 114–135.

Satopää, VA, Baron, J., Foster, DP, Mellers, BA, Tetlock, PE et Ungar, LH (2014). Combiner plusieurs prédictions de probabilité à l'aide d'un modèle logit simple. International Journal of Forecasting, 30 (2), 344-356.

Genest, C. et Schervish, MJ (1985). Modélisation des jugements d'experts pour la mise à jour bayésienne. Les annales de la statistique , 1198-1212.

Dietrich, F. et List, C. (2014). Mise en commun des opinions probabilistes. (Non publié)

Tim
la source
2
Je voulais ajouter à cela plutôt que de commencer une nouvelle réponse. Une autre méthode bien connue consiste à combiner les trois (ou N) probabilités en prenant leur moyenne géométrique (plutôt que leur moyenne arithmétique). Hinton souligne que cela donne à un modèle avec une probabilité très élevée ou faible, le pouvoir de «veto», entre autres, plutôt que de faire la moyenne de tout ce qui peut parfois jouer contre vous.
Zhubarb du
Donc, si les trois prévisions étaient toutes à 75% et qu'aucune information sur leur fiabilité n'est disponible, la prévision finale serait de 75%?
Karsten W.
@KarstenW. oui, pourquoi vous attendriez-vous à quelque chose de différent? Si vous n'avez aucune information a priori, c'est la seule information dont vous disposez, vous n'avez donc aucune raison de considérer le résultat final comme différent ...
Tim
1
Je n'ai lu aucun des articles universitaires de Tetlock, mais je commencerais par là. Telles que deux raisons de rendre les prévisions de probabilité agrégées plus extrêmes . Je vais chercher la formulation exacte de Phil, je me souviens peut-être mal du mot extremify .
Andy W
1
J'étais proche d' extrémisé , mais pas tout à fait. J'aurais dû utiliser extrémisé , voir ici . Outre le Baron et al. article mentionné, je vois que Ville Satopää a quelques travaux sur le sujet arxiv.org/abs/1506.06405 .
Andy W
6

Il y a deux façons de penser le problème. L'une est de dire que les sources observent une version bruyante de la variable latente "il pleuvra / il ne pleuvra pas".

Betune(une+b,une)Betune(une,une+b)

uneXyz

p=11+(1X-1)b(1y-1)b(1z-1)b

bb>1b<1b=1

p1-p=X1-Xy1-yz1-z

10

Ce modèle fonctionne mieux si vous pensez à trois personnes qui vous diront s'il a plu hier ou non. En pratique, nous savons qu'il y a une composante aléatoire irréductible dans le temps, et il serait donc préférable de supposer que la nature choisit d'abord une probabilité de pluie, qui est bruyamment observée par les sources, puis lance une pièce biaisée pour décider si ou non il va pleuvoir.

Dans ce cas, l'estimation combinée ressemblerait beaucoup plus à une moyenne entre les différentes estimations.

Arthur B.
la source
Que seraient x, y, z dans ce modèle?
Karsten W.
Ce serait les trois prédictions différentes.
Arthur B.
X=y=z=34p=2728342728
Passer du 3/4 au 27/28 est un peu extrême, c'est comme si trois personnes vous disaient que le ciel est bleu foncé et que vous avez conclu qu'il était noir ...
Tim
Cela dépend du modèle. Ici, je suppose que chaque source a une vue bruyante sur une variable binaire latente, pluie ou pas de pluie. C'est plus comme si trois personnes différentes vous disaient qu'il avait plu hier. Vous pouvez également modéliser le système comme s'il y avait une probabilité latente de pluie et les sources de prévisions comme obtenir une version bruyante de ces prévisions.
Arthur B.
3

Dans le cadre du modèle de croyance transférable (TBM) , il est possible de combiner différentes prédictions en utilisant par exemple la "règle conjonctive de combinaison". Pour appliquer cette règle, vous devez transformer les probabilités des prédictions en affectations de croyances de base. Cela peut être réalisé avec le principe dit du moins engagé. Dans R:

library(ibelief)
#probabilities
p1 <- c(0.99, 0.01) # bad results for 0 and 1
p2 <- c(0.01, 0.99)
p3 <- c(0.5, 0.5)

# basic belief assignment, 
# each row represents a subset of (rain, not rain)
# each column represents one prediction
Mat <- LCPrincple(rbind(p1,p2,p3))

# combine beliefs
m <- DST(Mat, 1)

# resulting probability distribution (pignistic probability)
mtobetp(m)
# returns 0.5 and 0.5

Pour le deuxième exemple de trois prédictions indépendantes de 0,75, cette approche renvoie une valeur plus élevée:

p4 <- c(0.75, 0.25)
Mat <- LCPrincple(rbind(p4,p4,p4))
m <- DST(Mat, 1)
mtobetp(m)
#returns 0.9375 0.0625

Ce n'est pas très loin de l'approche bayésienne montrée dans la réponse d'Arthur B.

Karsten W.
la source
2

w1=σ22σ32σ12σ22+σ12σ32+σ22σ32, w2=σ12σ32σ12σ22+σ12σ32+σ22σ32, w3=σ12σ22σ12σ22+σ12σ32+σ22σ32.

13

σjeσ12:σ22:σ32=1:2:4,

F=814(0)+414(1)+214(0,5)=0,3571
Soakley
la source
1

Leur nombre de probabilité de pluie n'est que la moitié de l'histoire, car nous devrions tempérer leurs prédictions avec la probabilité qu'elles soient exactes lors des suppositions.

Parce que quelque chose comme la pluie s'exclut mutuellement (il pleut ou non, dans cette configuration), ils ne peuvent pas tous être simultanément corrects avec une probabilité de 75% comme l'a suggéré Karsten (je pense, difficile à dire avec la confusion que j'entends à propos de ce que cela signifie pour trouver la "probabilité combinée").

Compte tenu de leurs capacités individuelles à prédire la météo, nous pourrions essayer (à la Thomas Bayes, comme dans un tir généralement aveugle dans l'obscurité) de savoir quel est le risque de pluie demain.

La station 1 est correcte dans ses prédictions 60% du temps, la seconde 30% du temps et la dernière station 10% du temps.

E [pluie] = Px X + Py Y + Pz * Z est la forme que nous regardons ici:

(.6) (0) + (. 3) (1) + (. 1) (. 5) = E [pluie] = 35% de probabilité de pluie avec une précision de prédiction composée.

Havok
la source
1
Cet algorithme peut produire des valeurs supérieures à 1.
Andy W
1

Il y a beaucoup de réponses compliquées à cette question, mais qu'en est-il de la moyenne pondérée de la variance inverse: https://en.wikipedia.org/wiki/Inverse-variance_weighting

Au lieu de n mesures répétées avec un instrument, si l'expérimentateur fait n de la même quantité avec n instruments différents avec des qualités de mesure variables ...

Chaque variable aléatoire est pondérée en proportion inverse de sa variance.

La moyenne pondérée à variance inverse semble très simple à calculer et, en prime, présente la plus faible variance parmi toutes les moyennes pondérées.

Raffles
la source
-1

Pour combiner la fiabilité, ma formule de référence est r1xr2xr3 ÷ (r1xr2xr3 + (1-r1) x (1-r2) x (1-r3). Donc, pour les 3 sources de fiabilité 75% disent toutes la même chose, j'aurais 0,75 ^ 3 ÷ (0,75 ^ 3 + 0,25 ^ 3) => 96% de fiabilité de la réponse combinée

user3902302
la source
1
Cela ne semble pas être une bonne réponse à la question.
Michael R. Chernick
Certes, il s'agissait davantage d'une réponse aux commentaires de KarstenW que d'une réponse directe à la question.
user3902302