Quelqu'un peut-il donner un bon aperçu des différences entre l'approche bayésienne et l'approche fréquentiste de la probabilité?
D'après ce que j'ai compris:
Le point de vue fréquentiste est que les données sont un échantillon aléatoire répétable (variable aléatoire) avec une fréquence / probabilité spécifique (définie comme la fréquence relative d'un événement à mesure que le nombre d'essais approche de l'infini). Les paramètres et probabilités sous-jacents restent constants au cours de ce processus répétable et que la variation est due à la variabilité dans et non à la distribution de probabilité (qui est fixée pour un événement / processus donné).
La vision bayésienne est que les données sont fixes alors que la fréquence / probabilité pour un certain événement peut changer, ce qui signifie que les paramètres de la distribution changent. En effet, les données que vous obtenez modifient la distribution antérieure d'un paramètre qui est mis à jour pour chaque ensemble de données.
Il me semble que l’approche fréquentiste est plus pratique / logique car il semble raisonnable que les événements aient une probabilité spécifique et que la variation se situe dans notre échantillonnage.
De plus, la plupart des analyses de données d’études reposent généralement sur l’approche fréquentiste (intervalles de confiance, tests d’hypothèses avec valeurs p, etc.), car elles sont facilement compréhensibles.
Je me demandais si quelqu'un pourrait me donner un bref résumé de son interprétation de l'approche bayésienne vs fréquentiste, y compris les équivalents statistiques bayésiens de la valeur p et de l'intervalle de confiance fréquentistes. De plus, nous apprécierons des exemples spécifiques où une méthode serait préférable à une autre.
Réponses:
Dans l’ approche fréquentiste , on affirme que le seul sens où les probabilités ont un sens est la valeur limite du nombre de succès dans une séquence d’essais, c’est-à-dire:
où est le nombre de succès et n le nombre d'essais. En particulier, il n’a aucun sens d’associer une distribution de probabilité à un paramètre .k n
Par exemple, considérons les échantillons de la distribution de Bernoulli avec le paramètre p (ils ont donc la valeur 1 avec la probabilité p et 0 avec la probabilité 1 - p ). Nous pouvons définir le taux de réussite de l' échantillon comme suit:X1, … , Xn p p 1 - p
et parler de la distribution de p conditionnelle à la valeur de p , mais il n'a pas de sens d'inverser la question et commencer à parler de la distribution de probabilité de p conditionnelle à la valeur observée de p . En particulier, cela signifie que lorsque nous calculons un intervalle de confiance, nous interprétons les extrémités de cet intervalle comme des variables aléatoires, et nous parlons de "la probabilité que l'intervalle comprenne le paramètre réel", plutôt que "de la probabilité que le paramètre soit dans l'intervalle de confiance ".p^ p p p^
Dans l' approche bayésienne , nous interprétons les distributions de probabilité comme une quantification de notre incertitude sur le monde. En particulier, cela signifie que nous pouvons maintenant parler de manière significative des distributions de probabilité des paramètres, car même si le paramètre est fixe, notre connaissance de sa valeur réelle peut être limitée. Dans l'exemple ci - dessus, nous pouvons inverser la distribution de probabilité en utilisant la loi de Bayes, pour donnerF( p^∣ p )
Le problème, c'est que nous devons introduire la distribution antérieure dans notre analyse - cela reflète notre conviction sur la valeur de avant de voir les valeurs réelles du X i . Le rôle du prieur est souvent critiqué dans l'approche fréquentiste, car il est avancé qu'il introduit la subjectivité dans le monde de la probabilité, par ailleurs austère et objet.p Xje
Dans l'approche bayésienne, on ne parle plus d'intervalles de confiance, mais plutôt d'intervalles crédibles, dont l'interprétation est plus naturelle: avec un intervalle de confiance de 95%, nous pouvons attribuer une probabilité de 95% que le paramètre se situe à l'intérieur de l'intervalle.
la source
Vous avez raison en ce qui concerne votre interprétation de la probabilité Frequentist: le hasard dans cette configuration est simplement dû à un échantillonnage incomplet. Du point de vue bayésien, les probabilités sont "subjectives", en ce sens qu'elles reflètent l'incertitude d'un agent sur le monde. Ce n'est pas tout à fait juste de dire que les paramètres des distributions "changent". Puisque nous ne disposons pas d'informations complètes sur les paramètres, notre incertitude à leur égard change à mesure que nous collectons davantage d'informations.
Les deux interprétations sont utiles dans les applications, et ce qui est plus utile dépend de la situation. Vous pouvez consulter le blog d’ Andrew Gelman pour des idées sur les applications bayésiennes. Dans de nombreuses situations, ce que les Bayésiens appellent des "a priori", les frequentists appellent une "régularisation". Ainsi, de mon point de vue, l'excitation peut quitter la salle assez rapidement. En fait, selon le théorème de Bernstein-von Mises, les inférences bayésienne et Frequentist sont effectivement asymptotiquement équivalentes sous des hypothèses plutôt faibles (bien que le théorème échoue notamment pour les distributions à dimension infinie). Vous pouvez trouver une foule de références à ce sujet ici .
Depuis que vous avez demandé des interprétations: Je pense que le point de vue Frequentist est très utile lors de la modélisation des expériences scientifiques pour lesquelles il a été conçu. Pour certaines applications en apprentissage automatique ou pour la modélisation du raisonnement inductif (ou apprentissage), la probabilité bayésienne a plus de sens pour moi. Il existe de nombreuses situations dans lesquelles la modélisation d'un événement avec une probabilité "vraie" fixe semble invraisemblable.
Pour un exemple de jouet remontant à Laplace , considérons la probabilité que le soleil se lève demain. Dans la perspective frequentiste, nous devons poser quelque chose comme un nombre infini d'univers pour définir la probabilité. En tant que bayésiens, il n'y a qu'un seul univers (ou du moins, il n'en faut pas forcément beaucoup). Notre incertitude quant au lever du soleil est étouffée par notre très très forte conviction antérieure selon laquelle il se lèvera de nouveau demain.
la source
The Bayesian interpretation of probability is a degree-of-belief interpretation.
A Bayesian may say that the probability that there was life on Mars a billion years ago is1/2 .
A frequentist will refuse to assign a probability to that proposition. It is not something that could be said to be true in half of all cases, so one cannot assign probability1/2 .
la source
Chris gives a nice simplistic explanation that properly differentiates the two approaches to probability. But frequentist theory of probability is more than just looking at the long range proportion of successes. We also consider data sampled at random from a distribution and estimate parameters of the distribution such as the mean and variance by taking certain types of averages of the data (e.g. for the mean it is the arithmetic average of the observations. Frequentist theory associates a probability with the estimate that is called the sampling distribution.
In frequency theory we are able to show for parameters like the mean that are taken by averaging from the samples that the estimate will converge to the true parameter. The sampling distribution is used to describe how close the estimate is to the parameter for any fixed sample size n. Close is defined by a measure of accuracy (e.g. mean square error).
At Chris points out for any parameter such as the mean the Bayesian attaches a prior probability distribution on it. Then given the data Bayes' rule is used to compute a posterior distribution for the parameter. For the Bayesian all inference about the parameter is based on this posterior distribution.
Frequentists construct confidence intervals which are intervals of plausible values for the parameter. Their construction is based on the frequentist probability that if the process used to generate the interval were repeated many times for independent samples the proportion of intervals that would actually include the true value of the parameter would be at least some prespecified confidence level (e.g. 95%).
Bayesians use the a posteriori distribution for the parameter to construct credible regions. These are simply regions in the parameter space over which the posterior distibution is integrated to get a prespecified probability (e.g. 0.95). Credible regions are interpreted by Bayesians as regions that have a high (e.g. the prespecified 0.95) probability of including the true value of the parameter.
la source
From a "real world" point of view, I find one major difference between a frequentist and a classical or Bayesian "solution" that applies to at least three major scenarios. The difference in selecting a methodology depends on whether you need a solution that is impacted by the population probability, or one that is impacted by the individual probability. Examples below:
If there is a known 5% probability that males over 40 will die in a given year and require life insurance payments, an insurance company can use the 5% POPULATION percentage to estimate its costs, but to say that each individual male over 40 only has a 5% chance of dying ... is meaningless... Because 5% have a 100% probability of dying - which is a frequentist approach. At the individual level the event either occurs (100% probability) or it does not (0% probability) However, based on this limited information, it is not possible to predict the individuals who have a 100% probability of dying, and the 5% "averaged" population probability is useless at the individual level.
The above argument applies equally as well to fires in buildings which is why sprinklers are required in all buildings in a population.
Les deux arguments ci-dessus s’appliquent de la même manière aux violations de la conformité des systèmes d’information, aux "piratages". Les pourcentages de population étant inutiles, tous les systèmes doivent être sauvegardés.
la source
Le choix de l'interprétation dépend de la question. Si vous souhaitez connaître les chances dans un jeu de hasard, une interprétation classique résoudra votre problème, mais les données statistiques sont inutiles puisque les dés équitables n'ont pas de mémoire.
Si vous souhaitez prédire un événement futur à partir de l'expérience passée, l'interprétation fréquentiste est correcte et suffisante.
Si vous ne savez pas si un événement passé s'est produit et souhaitez évaluer la probabilité qu'il en soit ainsi, vous devez prendre vos croyances antérieures, c'est-à-dire ce que vous savez déjà sur la probabilité que l'événement se produise et l'actualiser lorsque vous acquérez nouvelles données.
Puisque la question concerne un degré de croyance et que chaque personne peut avoir une idée différente des priors, l'interprétation est nécessairement subjective, c'est-à-dire bayésienne.
la source