Interprétation bayésienne vs fréquentiste de la probabilité

37

Quelqu'un peut-il donner un bon aperçu des différences entre l'approche bayésienne et l'approche fréquentiste de la probabilité?

D'après ce que j'ai compris:

Le point de vue fréquentiste est que les données sont un échantillon aléatoire répétable (variable aléatoire) avec une fréquence / probabilité spécifique (définie comme la fréquence relative d'un événement à mesure que le nombre d'essais approche de l'infini). Les paramètres et probabilités sous-jacents restent constants au cours de ce processus répétable et que la variation est due à la variabilité dans et non à la distribution de probabilité (qui est fixée pour un événement / processus donné).Xn

La vision bayésienne est que les données sont fixes alors que la fréquence / probabilité pour un certain événement peut changer, ce qui signifie que les paramètres de la distribution changent. En effet, les données que vous obtenez modifient la distribution antérieure d'un paramètre qui est mis à jour pour chaque ensemble de données.

Il me semble que l’approche fréquentiste est plus pratique / logique car il semble raisonnable que les événements aient une probabilité spécifique et que la variation se situe dans notre échantillonnage.

De plus, la plupart des analyses de données d’études reposent généralement sur l’approche fréquentiste (intervalles de confiance, tests d’hypothèses avec valeurs p, etc.), car elles sont facilement compréhensibles.

Je me demandais si quelqu'un pourrait me donner un bref résumé de son interprétation de l'approche bayésienne vs fréquentiste, y compris les équivalents statistiques bayésiens de la valeur p et de l'intervalle de confiance fréquentistes. De plus, nous apprécierons des exemples spécifiques où une méthode serait préférable à une autre.

BYS2
la source
1
Sur certains sites, vous serez attaqué par une foule en colère si vous dites que l’approche fréquentiste de l’inférence statistique est plus pratique. (OK, peut-être y a-t-il une hyperbole dans cette déclaration.) Je ne pense pas que les intervalles de confiance soient plus faciles à comprendre que les intervalles de probabilité postérieurs. ( De toute façon, voir ma réponse ci - dessous , je pense qu'il va droit à l'essence de la question, bien qu'il n'y ait pas de mathématiques au - delà de savoir quoi. est.)1/2
Michael Hardy
@DilipSarwate ay, je garderai cela à l'esprit pour la prochaine fois. mais on dirait que j’ai eu quelques bonnes réponses cette fois, alors peut-être que je vais essayer de finir ici: D
BYS2

Réponses:

27

Dans l’ approche fréquentiste , on affirme que le seul sens où les probabilités ont un sens est la valeur limite du nombre de succès dans une séquence d’essais, c’est-à-dire:

p=limnkn

est le nombre de succès et n le nombre d'essais. En particulier, il n’a aucun sens d’associer une distribution de probabilité à un paramètre .kn

Par exemple, considérons les échantillons de la distribution de Bernoulli avec le paramètre p (ils ont donc la valeur 1 avec la probabilité p et 0 avec la probabilité 1 - p ). Nous pouvons définir le taux de réussite de l' échantillon comme suit:X1,,Xnpp1-p

p^=X1++Xnn

et parler de la distribution de p conditionnelle à la valeur de p , mais il n'a pas de sens d'inverser la question et commencer à parler de la distribution de probabilité de p conditionnelle à la valeur observée de p . En particulier, cela signifie que lorsque nous calculons un intervalle de confiance, nous interprétons les extrémités de cet intervalle comme des variables aléatoires, et nous parlons de "la probabilité que l'intervalle comprenne le paramètre réel", plutôt que "de la probabilité que le paramètre soit dans l'intervalle de confiance ".p^ppp^

Dans l' approche bayésienne , nous interprétons les distributions de probabilité comme une quantification de notre incertitude sur le monde. En particulier, cela signifie que nous pouvons maintenant parler de manière significative des distributions de probabilité des paramètres, car même si le paramètre est fixe, notre connaissance de sa valeur réelle peut être limitée. Dans l'exemple ci - dessus, nous pouvons inverser la distribution de probabilité en utilisant la loi de Bayes, pour donnerF(p^|p)

F(p|p^)postérieur=F(p^|p)F(p^)ratio de vraisemblanceF(p)avant

Le problème, c'est que nous devons introduire la distribution antérieure dans notre analyse - cela reflète notre conviction sur la valeur de avant de voir les valeurs réelles du X i . Le rôle du prieur est souvent critiqué dans l'approche fréquentiste, car il est avancé qu'il introduit la subjectivité dans le monde de la probabilité, par ailleurs austère et objet.pXje

Dans l'approche bayésienne, on ne parle plus d'intervalles de confiance, mais plutôt d'intervalles crédibles, dont l'interprétation est plus naturelle: avec un intervalle de confiance de 95%, nous pouvons attribuer une probabilité de 95% que le paramètre se situe à l'intérieur de l'intervalle.

Chris Taylor
la source
6
D'autre part, une critique de l'approche fréquentiste est qu'elle ne correspond pas à la façon dont les gens pensent à la probabilité. Réfléchissez à la façon dont les gens parlent de la "probabilité" d'événements ponctuels, tels que l'extinction des dinosaures, ou de la "probabilité" de "certitudes", comme le soleil levant de demain ...
14
Il serait également bon de mentionner que l'écart entre les approches fréquentiste et bayésienne n'est pas aussi grand sur le plan pratique: toute méthode fréquentiste qui produit des résultats utiles et cohérents peut généralement être interprétée par une interprétation bayésienne, et inversement . En particulier, la refonte d’un calcul fréquentiste en termes bayésiens donne généralement une règle de calcul de l’a posteriori compte tenu de certains antécédents spécifiques . On peut alors demander "Eh bien, est-ce que cet avant est réellement raisonnable à assumer?"
Ilmari Karonen
Merci pour cette réponse, elle correspond à ma compréhension générale. Cependant, je me demandais si vous pouviez préciser une chose: comment trouveriez-vous la probabilité du taux de réussite des données / de l'échantillon (f (p-hat)) dans la formule de loi de Baye? J'ai lu quelques exemples et j'ai généralement compris comment dériver f (p-hat | p) et l'ancien f (p) mais f (p-hat) m'échappe jusqu'à présent. Si vous aviez des liens vers des ressources, ce serait formidable: D. Merci!
BYS2
@IlmariKaronen. Ok, vous dites donc que si j'avais une étude qui produisait certains résultats exprimés en intervalles de confiance, je pourrais refondre les données et faire une analyse bayésienne à la place? et les résultats seraient plus ou moins cohérents?
BYS2
Ce que @ Karonen dit n'est pas tout à fait exact. Les deux techniques fréquentistes les plus courantes sont les estimations ponctuelles (généralement l'estimation du maximum de vraisemblance) et les tests d'hypothèses. Aucune interprétation ne peut en réalité être interprétée bayésienne de manière naturelle.
Jules
20

Vous avez raison en ce qui concerne votre interprétation de la probabilité Frequentist: le hasard dans cette configuration est simplement dû à un échantillonnage incomplet. Du point de vue bayésien, les probabilités sont "subjectives", en ce sens qu'elles reflètent l'incertitude d'un agent sur le monde. Ce n'est pas tout à fait juste de dire que les paramètres des distributions "changent". Puisque nous ne disposons pas d'informations complètes sur les paramètres, notre incertitude à leur égard change à mesure que nous collectons davantage d'informations.

Les deux interprétations sont utiles dans les applications, et ce qui est plus utile dépend de la situation. Vous pouvez consulter le blog d’ Andrew Gelman pour des idées sur les applications bayésiennes. Dans de nombreuses situations, ce que les Bayésiens appellent des "a priori", les frequentists appellent une "régularisation". Ainsi, de mon point de vue, l'excitation peut quitter la salle assez rapidement. En fait, selon le théorème de Bernstein-von Mises, les inférences bayésienne et Frequentist sont effectivement asymptotiquement équivalentes sous des hypothèses plutôt faibles (bien que le théorème échoue notamment pour les distributions à dimension infinie). Vous pouvez trouver une foule de références à ce sujet ici .

Depuis que vous avez demandé des interprétations: Je pense que le point de vue Frequentist est très utile lors de la modélisation des expériences scientifiques pour lesquelles il a été conçu. Pour certaines applications en apprentissage automatique ou pour la modélisation du raisonnement inductif (ou apprentissage), la probabilité bayésienne a plus de sens pour moi. Il existe de nombreuses situations dans lesquelles la modélisation d'un événement avec une probabilité "vraie" fixe semble invraisemblable.

Pour un exemple de jouet remontant à Laplace , considérons la probabilité que le soleil se lève demain. Dans la perspective frequentiste, nous devons poser quelque chose comme un nombre infini d'univers pour définir la probabilité. En tant que bayésiens, il n'y a qu'un seul univers (ou du moins, il n'en faut pas forcément beaucoup). Notre incertitude quant au lever du soleil est étouffée par notre très très forte conviction antérieure selon laquelle il se lèvera de nouveau demain.

yep
la source
17

The Bayesian interpretation of probability is a degree-of-belief interpretation.

A Bayesian may say that the probability that there was life on Mars a billion years ago is 1/2.

A frequentist will refuse to assign a probability to that proposition. It is not something that could be said to be true in half of all cases, so one cannot assign probability 1/2.

Michael Hardy
la source
2
There is probably no better place to ponder the limitations of the more narrow frequentist approach vs. the generality of the Bayesian approach (extension of logic) than the classic paper by R. T. Cox.
gwr
2
Cox also wrote a book about this, titled Algebra of Probable Inference, published by Johns Hopkins. @gwr
Michael Hardy
1
Ian Hacking said it well in his book "An Introduction to Probability and Inductive Logic". He said: "The Bayesian is able to attach personal probabilities, or degrees of belief, to individual propositions. The hard-line frequency dogmatist thinks that probabilities can be attached only to a series of events."
Buttons840
9

Chris gives a nice simplistic explanation that properly differentiates the two approaches to probability. But frequentist theory of probability is more than just looking at the long range proportion of successes. We also consider data sampled at random from a distribution and estimate parameters of the distribution such as the mean and variance by taking certain types of averages of the data (e.g. for the mean it is the arithmetic average of the observations. Frequentist theory associates a probability with the estimate that is called the sampling distribution.

In frequency theory we are able to show for parameters like the mean that are taken by averaging from the samples that the estimate will converge to the true parameter. The sampling distribution is used to describe how close the estimate is to the parameter for any fixed sample size n. Close is defined by a measure of accuracy (e.g. mean square error).

At Chris points out for any parameter such as the mean the Bayesian attaches a prior probability distribution on it. Then given the data Bayes' rule is used to compute a posterior distribution for the parameter. For the Bayesian all inference about the parameter is based on this posterior distribution.

Frequentists construct confidence intervals which are intervals of plausible values for the parameter. Their construction is based on the frequentist probability that if the process used to generate the interval were repeated many times for independent samples the proportion of intervals that would actually include the true value of the parameter would be at least some prespecified confidence level (e.g. 95%).

Bayesians use the a posteriori distribution for the parameter to construct credible regions. These are simply regions in the parameter space over which the posterior distibution is integrated to get a prespecified probability (e.g. 0.95). Credible regions are interpreted by Bayesians as regions that have a high (e.g. the prespecified 0.95) probability of including the true value of the parameter.

Michael R. Chernick
la source
1
Credible regions are interpreted by Bayesians as regions that have a high (e.g. the prespecified 0.95) probability of including the true value of the parameter. How is this possible if the parameter is a random variable?
@Procrastinator Okay maybe you would prefer for me to just say that it covers a high prespecified proportion of the parameter distribution. But if X is a random variable with a distribution f and we construct a credible region for it then the region does represent the probability that a realization of the random variable will lie in the region.
Michael R. Chernick
I agree with this explanation. It is important to clarify that a realisation of the random variable is not the true value of the parameter.
@Procrastinator that's an interesting point you raise. However, my understanding of bayesian probability is that many Bayesians agree with classical statisticians that there is a single TRUE value of the parameter in question (it is fixed but unknown). It is the uncertainty about this parameter that is distributed because of our imperfect state of knowledge. So if you think about it in this way, then Michael Chernick's initial statement is valid don't you think?
BYS2
2
@MichaelChernick I think there is a missinterpretation of what a Bayesian credibility region means. Suppose that the true value of the parameter is θ0=1 and you choose a uniform prior on (1,100). Therefore no credibility interval would contain the true value of the parameter, contradicting your reasoning.
2

From a "real world" point of view, I find one major difference between a frequentist and a classical or Bayesian "solution" that applies to at least three major scenarios. The difference in selecting a methodology depends on whether you need a solution that is impacted by the population probability, or one that is impacted by the individual probability. Examples below:

  1. If there is a known 5% probability that males over 40 will die in a given year and require life insurance payments, an insurance company can use the 5% POPULATION percentage to estimate its costs, but to say that each individual male over 40 only has a 5% chance of dying ... is meaningless... Because 5% have a 100% probability of dying - which is a frequentist approach. At the individual level the event either occurs (100% probability) or it does not (0% probability) However, based on this limited information, it is not possible to predict the individuals who have a 100% probability of dying, and the 5% "averaged" population probability is useless at the individual level.

  2. The above argument applies equally as well to fires in buildings which is why sprinklers are required in all buildings in a population.

  3. Les deux arguments ci-dessus s’appliquent de la même manière aux violations de la conformité des systèmes d’information, aux "piratages". Les pourcentages de population étant inutiles, tous les systèmes doivent être sauvegardés.

James J Finn
la source
2
Je ne reconnais aucune approche fréquentiste dans aucun de ces trois cas. Ils semblent tous reposer sur un concept de probabilité rétrospectif - et par conséquent inutile - qui n’est pas utilisé dans les modèles classiques. Par exemple, l'affirmation selon laquelle "l'événement se produit ... ou ne se produit pas" est trivialement vraie mais non liée aux probabilités.
whuber
0

Le choix de l'interprétation dépend de la question. Si vous souhaitez connaître les chances dans un jeu de hasard, une interprétation classique résoudra votre problème, mais les données statistiques sont inutiles puisque les dés équitables n'ont pas de mémoire.

Si vous souhaitez prédire un événement futur à partir de l'expérience passée, l'interprétation fréquentiste est correcte et suffisante.

Si vous ne savez pas si un événement passé s'est produit et souhaitez évaluer la probabilité qu'il en soit ainsi, vous devez prendre vos croyances antérieures, c'est-à-dire ce que vous savez déjà sur la probabilité que l'événement se produise et l'actualiser lorsque vous acquérez nouvelles données.

Puisque la question concerne un degré de croyance et que chaque personne peut avoir une idée différente des priors, l'interprétation est nécessairement subjective, c'est-à-dire bayésienne.

Aviel Roy-Shapira
la source