Comment les bayésiens définissent-ils (ou interprètent-ils exactement) la probabilité?

9

Partie d'une série d'essayer de comprendre le bayésien vs fréquentiste: 1 2 3 4 5 6 7

Je pense que je comprends la façon dont les bayésiens et les fréquentistes abordent le choix entre les hypothèses , mais je ne sais pas trop si ou comment cela est censé m'expliquer comment ils perçoivent la probabilité.

D'après ce que je comprends, selon Wiki , un fréquentiste "définit" la probabilité comme suit:

Étant donné l'espace de probabilité (Ω,F,P), AF, P(A)nAnt, où nt est le nombre d'essais menés et nA est le nombre de fois où A s'est produit dans ces essais.

En outre, P(A)=limntnAnt.

D'accord, alors comment les bayésiens définissent-ils la probabilité? Ce qui précède semble être une approche pour calculer la probabilité d'un événement en plus de définir une probabilité.

Les bayésiens semblent supposer une probabilité antérieure, effectuer des essais puis mettre à jour leur probabilité, mais cela ne semble pas vraiment expliquer comment ils définissent ce qu'est la probabilité.

Le wiki dit que «la probabilité bayésienne est une quantité que nous attribuons dans le but de représenter un état de connaissance ou un état de croyance».

Qu'est-ce que ça veut dire exactement? L'État est-il synonyme de degré? Par exemple, l'état de croyance de Walter qu'une pièce particulière est juste est représenté par le nombre 0,1 tandis que l'état de croyance de Jesse que la même pièce est juste est représenté par le nombre 0,2. Compte tenu de nouvelles informations, l'état de croyance de Walter pourrait devenir 0,96 tandis que l'état de croyance de Jesse pourrait devenir 0,03. Donc, au départ, Walter était moins enclin à croire que la pièce était juste, mais plus tard Jesse était plus enclin à croire que la pièce était juste?

J'espère quelque chose en termes de symboles comme le fréquentiste ci-dessus.

La même page Wiki dit: «L'interprétation bayésienne de la probabilité peut être considérée comme une extension de la logique propositionnelle qui permet de raisonner avec des hypothèses, c'est-à-dire les propositions dont la vérité ou la fausseté est incertaine.», Il semble que la probabilité bayésienne et fréquentiste est analogue à Logique booléenne, respectivement.

BCLC
la source
12
Les fréquentistes et les bayésiens utilisent la même définition de la probabilité, à savoir celle basée sur les axiomes de probabilité de Kolmogorov, c'est-à-dire la probabilité comme mesure finie. La différence entre bayésiens et fréquentistes n'est donc pas liée à la définition de la probabilité, mais à la façon dont ils relient ce concept aux données.
Michael M
1
@MichaelM Aurais-je dû dire «interpréter» plutôt que «définir»?
BCLC du
1
@BCLC, je vous ai félicité pour votre question, mais après ne pas avoir été complètement clair sur la réponse, j'ai trouvé la première entrée de la colonne "Connexes" très utile.
Antoni Parellada
@AntoniParellada Merci. Tu veux dire ça? . Vu. Je ne sais pas quoi »Dans l'approche bayésienne, nous interprétons les distributions de probabilité comme quantifiant notre incertitude sur le monde. »signifie donc cette question. Ou tu veux dire ça? Comment cela aide-t-il à répondre à ma question?
BCLC du
1
@MichaelM: Mais voyez les Bayésiens acceptent-ils les axiomes de Kolmogorov? .
Scortchi - Réintégrer Monica

Réponses:

8

Je pense que la plupart des `` fréquentistes '' et des `` bayésiens '' définiraient rigoureusement la probabilité de la même manière: via les axiomes et la théorie de la mesure de Kolmogorov , modulez quelques problèmes concernant l' additivité finie vs comptable , en fonction de la personne à qui vous parlez. Donc, en termes de «symboles», je pense que vous trouverez probablement plus ou moins la même définition dans tous les domaines. Tout le monde est d'accord sur le comportement des probabilités .

Je dirais que la principale différence réside dans l'interprétation de ce que sont les probabilités . Mon interprétation préférée (bayésienne militante ironique) est que les probabilités sont des représentations cohérentes d'informations sur les événements .

`` Cohérent '' a ici une signification technique: cela signifie que si je représente mes informations sur le monde en termes de probabilités et que j'utilise ensuite ces probabilités pour évaluer mes paris sur la survenance ou la non-survenance d'un événement donné, je suis assuré que je ne peux pas devenir un perdant sûr par des agents pariant contre moi.

Notez que cela n'implique aucune notion de «fréquence relative à long terme»; en effet, je peux représenter de manière cohérente mes informations sur un événement ponctuel - comme le soleil qui explose demain - via le langage des probabilités. D'un autre côté, il semble plus difficile (ou sans doute moins naturel) de parler de l'événement "le soleil va exploser demain" en termes de fréquence relative à long terme.

Pour approfondir cette question, je vous renvoie au premier chapitre des excellents (et gratuits) principes d'incertitude de Jay Kadane .

MISE À JOUR : J'ai écrit un billet de blog relativement informel qui illustre la cohérence.

jtobin
la source
"Si vous êtes un membre du grand public: le fait que vous voyiez cette page indique que le site Web que vous venez de visiter connaît des problèmes ou fait l'objet d'une maintenance régulière." -> Peut-être plus tard alors. Merci
BCLC
@BCLC Est-ce pour le lien PoU? Ça marche pour moi.
jtobin
1
(+1) Exposition très claire. @BCLC: Voir Savage (1954), The Foundations of Statistics for an axiomatic approach. L'essentiel est que si vous voulez représenter le degré de croyance et insister sur la comparabilité (pour toutes les déclarations et vous pouvez dire que vous croyez l'un plus que l'autre, ou les deux également) et la cohérence (comme expliqué ci-dessus), il se trouve que vous doivent utiliser une probabilité - c'est-à-dire un nombre réel subjectif aux axiomes de Kolmogorov (sauf un, peut-être). AB
Scortchi - Réintégrer Monica
Je suis sûr qu'il y a une bonne explication sur la façon dont les probabilités bayésiennes ne permettent pas les livres néerlandais, mais je ne vois pas immédiatement le lien, donc j'ai du mal à dire que c'est une explication claire de la façon dont les bayésiens voient la probabilité. Et de plus, si les informations qu'un agent a pariées contre vous sont asymétriques, alors vous devez être en mesure de devenir un perdant sûr? Peut-être que cette question implique ce que je ne comprends pas ...
Cliff AB
8

Comme déjà noté par d'autres, il n'y a pas de définition bayésienne spécifique de la probabilité. Il n'y a qu'une seule façon de définir la probabilité, c'est-à-dire un nombre réel attribué à un événement par une mesure de probabilité, qui suit les axiomes de probabilité . S'il y avait différentes définitions de la probabilité, nous ne pourrions pas l'utiliser de manière cohérente, car différentes personnes comprendraient différentes choses derrière.

Bien qu'il n'y ait qu'une seule façon de la définir , il existe plusieurs façons d' interpréter la probabilité. La probabilité est un concept mathématique , sans aucun rapport avec le monde réel (citant de Finetti, "la probabilité n'existe pas"). Pour l'appliquer au monde réel, nous devons traduire ou interpréter les mathématiques en événements du monde réel. Il existe plusieurs façons différentes d'interpréter la probabilité, voire différentes interprétations parmi les Bayésiens (consultez la section Interprétations des probabilités dans la Stanford Encyclopedia of Philosophy pour une revue). Celui qui est le plus souvent associé aux statistiques bayésiennes est la vision subjectiviste , également connue sous le nom de probabilité personnalisée .

Dans la perspective subjectiviste, la probabilité est un degré de croyance ou un degré de confirmation . Il mesure combien quelqu'un considère quelque chose de crédible. Elle peut être analysée ou observée, plus clairement en termes de comportement de pari (de Finetti, 1937; voir aussi Savage, 1976; Kemeny, 1955):

Supposons qu'un individu soit obligé d'évaluer le taux auquel il serait prêt à échanger la possession d'une somme arbitraire (positive ou négative) en fonction de la survenance d'un événement donné , pour la possession de la somme ; on dira par définition que ce nombre est la mesure du degré de probabilité attribué par l'individu considéré à l'événement , ou, plus simplement, que est la probabilité de (selon l'individu considéré; cette spécification peut être implicite s'il n'y a pas d'ambiguïté).pSEpSpEpE

Le pari est l'une des situations où l'on a besoin de quantifier la "probabilité" qu'il croit que quelque chose est et la mesure d'une telle croyance est clairement une probabilité. Traduire cette croyance en nombres, au moins en mesure de croire, c'est-à-dire la probabilité.

Bruno de Finetti, l'une des figures majeures des subjectivistes, constate que la vision subjectiviste est cohérente avec les axiomes de probabilité et doit les suivre:

Si nous reconnaissons seulement, d'abord qu'un événement incertain ne peut nous apparaître (a) également probable, (b) plus probable, ou (c) moins probable, puis un autre; deuxièmement, un événement incertain nous semble toujours plus probable qu'un événement impossible et moins probable qu'un événement nécessaire; et enfin, troisièmement que lorsque nous jugeons un événement plus probable que l'événement , qui est lui-même plus probable qu'un événement , alors l'événement ne peut apparaître que plus probable queEEEEE (propriété transitive), il suffira d'y ajouter trois axiomes évidemment triviaux un quatrième, lui-même de nature purement qualitative, pour construire rigoureusement toute la théorie des probabilités. Le quatrième axiome nous dit que les inégalités sont préservées en sommes logiques: si est incompatible avec et avec , alors sera plus ou moins probable que , ou elles seront également probables, selon l'endroit où est plus ou moins probable que , ou ils sont également probables. Plus généralement, on peut en déduire que deux inégalités, telles queEE1E2E1EE2EE1E2

E1 is more probable then E2,E1 is moreprobable then E2,

peut être ajouté pour donner

E1E1 is more probable then E2E2

à condition que les événements ajoutés soient incompatibles entre eux ( avec , avec ).E1E1E2E2

Des arguments similaires sont avancés par plusieurs auteurs différents, comme Kemeny (1955) ou Savage (1972), qui, comme De Finetti, établissent des liens entre les axiomes et la vision subjectiviste de la probabilité. Ils montrent également qu'une telle mesure de la croyance doit être cohérente avec les axiomes de la probabilité (donc si elle ressemble à une probabilité et quacks comme une probabilité ...). De plus, Cox (1946) montre que la probabilité peut être considérée comme une extension de la logique formelle qui va au-delà du vrai et du faux binaire, permettant des incertitudes.

Comme vous pouvez le voir, cela n'a rien à voir avec les fréquences. Bien sûr, si vous observez que les fumeurs de nicotine meurent du cancer plus souvent que les non-fumeurs, vous supposeriez rationnellement que cette mort est plus crédible pour un fumeur, donc l'interprétation de la fréquence ne contredit pas le point de vue subjectiviste. Ce qui rend cette interprétation attrayante, c'est qu'elle peut également s'appliquer à des cas qui n'ont rien à voir avec les fréquences (par exemple, la probabilité que Donald Trump remporte l'élection présidentielle américaine de 2016, la probabilité qu'il existe d'autres formes de vie intelligentes quelque part dans l'espace à part nous, etc.). ). Lorsque vous adoptez une vision subjectiviste, vous pouvez considérer ces cas de manière probabiliste et construire des modèles statistiques de tels scénarios (voir l'exemple de prévision des élections par FiveThirtyEight, ce qui est cohérent avec la réflexion sur la probabilité comme mesure du degré de croyance sur la base des preuves disponibles). Cela rend cette interprétation très large (certains disent, trop large), de sorte que nous pouvons adapter avec souplesse la pensée probabiliste à différents problèmes. Oui, c'est subjectif, mais de Finetti (1931) constate que la définition fréquentiste étant basée sur de multiples hypothèses irréalistes, elle ne la rend pas plus "rationnelle".


de Finetti, B. (1937/1980). La Prévision: Ses Lois Logiques, Ses Sources Subjectives. [ Prévoyance. Ses lois logiques, ses sources subjectives. ] Annales de l'Institut Henri Poincaré, 7, 1-68.

Kemeny, J. (1955). Paris équitables et probabilités inductives. Journal of Symbolic Logic, 20, 263-273.

Savage, LJ (1972). Les fondements de la statistique . Douvres.

Cox, RT (1946). Probabilité, fréquence et attente raisonnable. Journal américain de physique, 14 (1), 1-13.

de Finetti, B. (1931/1989). «Probabilisme: un essai critique sur la théorie des probabilités et sur la valeur de la science». Erkenntnis, 31, 169-223.

Tim
la source
+1 Très belle réponse (en quelque sorte je ne l'ai pas vue auparavant), et les références sont bonnes.
amoeba
2

Je vais essayer d'être incroyablement clair avec ma terminologie. Comme vous l'avez fait, nous nous concentrerons sur une pièce, , donc .XBernoulli(p)Pr(X=1)=p

Les bayésiens et les fréquentistes considèrent tous deux comme une variable aléatoire et partagent les mêmes vues sur la distribution de probabilité . Cependant, les bayésiens utilisent également des distributions de probabilité pour modéliser leur incertitude sur un paramètre fixe, dans ce cas .XPr(X)p

Si nous laissons maintenant et définissons , comme vous l'avez soulignéx1,x2,Bernoulli(p)hn=i=1nxi

limnhnn=p.

Ceci est pertinent car est le MLE pour . Notez cependant que pour tout nombre positif (en fait, il n'est même pas nécessaire qu'il soit positif):hn/npa,b

limnhn+an+a+b=p.

Un inconvénient de l'estimateur est que pour les petits cela peut être fou. L'exemple le plus extrême est lorsque , notre estimation de sera ou . Et si nous fixions et utilisons la deuxième estimation. Si nous obtenons un au premier flip, notre estimation mise à jour est , supérieure à mais pas aussi extrême que .hn/nnn=1p01a=b=516/1150%1

Cette estimation plus restreinte peut être facilement dérivée en exprimant notre incertitude sur sous la forme d'une distribution antérieure (et éventuellement postérieure). Si vous souhaitez consulter cet exemple en profondeur, il s'agit du bêta-binôme . Il s'agit de mettre un Beta a priori sur le paramètre d'une Distribution Binomiale, et de prendre l'attente du postérieur résultant.p

jlimahaverford
la source
Les bayésiens interprètent-ils donc la probabilité comme la limite d'un MLE? En outre, cette première déclaration de limite est-elle due à et à l'une des lois des grands nombres ? E(X)=P(X=1)=p
BCLC du
Cela ne répond pas à la question posée ... Cette réponse concerne davantage l'utilisation des a priori et de l'inférence bayésienne, pas la manière dont la probabilité est définie.
Tim
@Tim Je pensais que ce premier énoncé de limite était la réponse?
BCLC du
@Tim Vous devriez peut-être dire 'comment la probabilité est interprétée ' ...
BCLC
J'ai essayé d'expliquer et de donner un exemple du fait que la probabilité est définie de la même manière mais utilisée différemment.
jlimahaverford