Du point de vue de la probabilité bayésienne, pourquoi un intervalle de confiance à 95% ne contient-il pas le vrai paramètre avec une probabilité de 95%?

14

À partir de la page Wikipedia sur les intervalles de confiance :

... si des intervalles de confiance sont construits sur de nombreuses analyses de données distinctes d'expériences répétées (et éventuellement différentes), la proportion de ces intervalles qui contiennent la vraie valeur du paramètre correspondra au niveau de confiance ...

Et à partir de la même page:

Un intervalle de confiance ne prévoit pas que la vraie valeur du paramètre a une probabilité particulière d'être dans l'intervalle de confiance compte tenu des données réellement obtenues.

Si j'ai bien compris, cette dernière affirmation est faite en ayant à l'esprit l'interprétation fréquentiste de la probabilité. Cependant, du point de vue de la probabilité bayésienne, pourquoi un intervalle de confiance à 95% ne contient-il pas le vrai paramètre avec une probabilité de 95%? Et si ce n'est pas le cas, quel est le problème avec le raisonnement suivant?

Si j'ai un processus qui, je le sais, produit une réponse correcte dans 95% des cas, la probabilité que la réponse suivante soit correcte est de 0,95 (étant donné que je n'ai pas d'informations supplémentaires concernant le processus). De même, si quelqu'un me montre un intervalle de confiance créé par un processus qui contiendra le vrai paramètre 95% du temps, ne devrais-je pas avoir raison de dire qu'il contient le vrai paramètre avec une probabilité de 0,95, étant donné ce que je sais?

Cette question est similaire, mais pas la même que, Pourquoi un IC à 95% n'implique-t-il pas une chance de 95% de contenir la moyenne? Les réponses à cette question se sont concentrées sur les raisons pour lesquelles un IC à 95% n'implique pas une probabilité de 95% de contenir la moyenne d'un point de vue fréquentiste. Ma question est la même, mais dans une perspective de probabilité bayésienne.

Rasmus Bååth
la source
Une façon de penser à cela est que l'IC à 95% est une «moyenne à long terme». Il existe maintenant de nombreuses façons de diviser vos cas "à court terme" afin d'obtenir une couverture assez arbitraire - mais une fois la moyenne obtenue, donnez 95% dans l'ensemble. Une autre façon plus abstraite est de générer xiBernoulli(pi) pour de telle sorte que . Il existe un nombre infini de façons de procéder. Ici indique si le CI créé avec le ième ensemble de données contenait ou non le paramètre, eti = 1 p i = 0,95 x i p ii=1,2,i=1pi=0.95xipiest la probabilité de couverture pour ce cas.
probabilités du

Réponses:

11

Mise à jour : Avec le recul de quelques années, j'ai rédigé un traitement plus concis essentiellement du même matériau en réponse à une question similaire.


Comment construire une région de confiance

Commençons par une méthode générale de construction des régions de confiance. Il peut être appliqué à un seul paramètre, pour produire un intervalle de confiance ou un ensemble d'intervalles; et il peut être appliqué à deux paramètres ou plus, pour produire des régions de confiance dimensionnelles plus élevées.

Nous affirmons que les statistiques observées D proviennent d'une distribution avec les paramètres θ , à savoir la distribution d'échantillonnage s(d|θ) sur les statistiques possibles d , et cherchons une région de confiance pour θ dans l'ensemble des valeurs possibles Θ . Définissez une région à plus haute densité (HDR): le h -HDR d'un PDF est le plus petit sous-ensemble de son domaine qui prend en charge la probabilité h . Notons le h -HDR de s(d|ψ) comme Hψ , pour tout ψΘ . Ensuite, larégion de confianceh pourθ , étant donné les donnéesD , est l'ensembleCD={ϕ:DHϕ} . Une valeur typique deh serait 0,95.

Une interprétation fréquentiste

De la définition précédente d'une région de confiance suit

dHψψCd
avec Cd={ϕ:dHϕ} . Maintenant , imaginez un grand nombre de ( imaginaires observations) {Di} , pris dans des circonstances similaires à D . ie Ce sont des échantillons de s(d|θ) . Puisque Hθ supporte la masse de probabilité h des PDF s(d|θ) ,P(DiHθ)=h pour touti . Par conséquent, la fraction de{Di} pour laquelleDiHθ esth . Et donc, en utilisant l'équivalence ci-dessus, la fraction de{Di} pour laquelleθCDi est égalementh .

C'est donc ce que la revendication fréquentiste pour la région de confiance h pour θ équivaut à:

Prenez un grand nombre d'observations imaginaires {Di} de la distribution d'échantillonnage s(d|θ) qui a donné lieu à des statistiques observées D . Alors, θ se situe dans une fraction h des régions de confiance analogues mais imaginaires {CDi} .

La région de confiance CD ne prétend donc pas à la probabilité que θ se situe quelque part! La raison en est simplement qu'il n'y a rien dans la fomulation qui nous permette de parler d'une distribution de probabilité sur θ . L'interprétation est juste une superstructure élaborée, qui n'améliore pas la base. La base n'est que s(d|θ) et D , où θ n'apparaît pas comme une quantité distribuée, et il n'y a aucune information que nous pouvons utiliser pour y remédier. Il existe essentiellement deux façons d'obtenir une distribution sur θ :

  1. Attribuez une distribution directement à partir des informations disponibles: p(θ|I) .
  2. Reliez θ à une autre quantité distribuée: p(θ|I)=p(θx|I)dx=p(θ|xI)p(x|I)dx .

Dans les deux cas, θ doit apparaître quelque part à gauche. Les fréquencistes ne peuvent utiliser aucune des deux méthodes, car elles nécessitent toutes deux un préalable hérétique.

Une vue bayésienne

Tout ce qu'un bayésien peut faire de la région de confiance hCD , donnée sans qualification, est simplement l'interprétation directe: que c'est l'ensemble de ϕ pour lequel D tombe dans le h -HDR Hϕ de la distribution d'échantillonnage s(d|ϕ) . Cela ne nous dit pas nécessairement grand-chose sur θ , et voici pourquoi.

La probabilité que θCD , étant donné D et les informations de base I , soit:

P(θCD|DI)=CDp(θ|DI)dθ=CDp(D|θI)p(θ|I)p(D|I)dθ
Notez que, contrairement à l'interprétation fréquentiste, nous avons immédiatement demandé une distribution surθ. L'information de baseInous dit, comme précédemment, que la distribution d'échantillonnage ests(d|θ):
P(θCD|DI)=CDs(D|θ)p(θ|I)p(D|I)dθ=CDs(D|θ)p(θ|I)dθp(D|I)i.e.P(θCD|DI)=CDs(D|θ)p(θ|I)dθs(D|θ)p(θ|I)dθ
Or, cette expression n'évalue généralement pas enh, c'est-à-dire que larégion de confiancehCDne contient pas toujoursθde probabilitéh. En fait, il peut être très différent deh. Il existe cependant de nombreuses situations courantes dans lesquelles ilestévalué àh, c'est pourquoi les régions de confiance sont souvent cohérentes avec nos intuitions probabilistes.

Par exemple, supposons que le joint PDF antérieur de d et θ soit symétrique en ce que pd,θ(d,θ|I)=pd,θ(θ,d|I) . (Cela implique clairement une hypothèse selon laquelle le PDF s'étend sur le même domaine en d et θ .) Ensuite, si l'a priori est p(θ|I)=f(θ) , nous avons s(D|θ)p(θ|I)=s(D|θ)f(θ)=s(θ|D)f(D) . D'où

P(θCD|DI)=CDs(θ|D)dθs(θ|D)dθi.e.P(θCD|DI)=CDs(θ|D)dθ
D'après la définition d'un HDR, nous savons que pour toutψΘ
Hψs(d|ψ)dd=hand therefore thatHDs(d|D)dd=hor equivalentlyHDs(θ|D)dθ=h
Therefore, given that s(d|θ)f(θ)=s(θ|d)f(d), CD=HD implies P(θCD|DI)=h. The antecedent satisfies
CD=HDψ[ψCDψHD]
Applying the equivalence near the top:
CD=HDψ[DHψψHD]
Thus, the confidence region CD contains θ with probability h if for all possible values ψ of θ, the h-HDR of s(d|ψ) contains D if and only if the h-HDR of s(d|D) contains ψ.

Now the symmetric relation DHψψHD is satisfied for all ψ when s(ψ+δ|ψ)=s(Dδ|D) for all δ that span the support of s(d|D) and s(d|ψ). We can therefore form the following argument:

  1. s(d|θ)f(θ)=s(θ|d)f(d) (premise)
  2. ψδ[s(ψ+δ|ψ)=s(Dδ|D)] (premise)
  3. ψδ[s(ψ+δ|ψ)=s(Dδ|D)]ψ[DHψψHD]
  4. ψ[DHψψHD]
  5. ψ[DHψψHD]CD=HD
  6. CD=HD
  7. [s(d|θ)f(θ)=s(θ|d)f(d)CD=HD]P(θCD|DI)=h
  8. P(θCD|DI)=h

Let's apply the argument to a confidence interval on the mean of a 1-D normal distribution (μ,σ), given a sample mean x¯ from n measurements. We have θ=μ and d=x¯, so that the sampling distribution is

s(d|θ)=nσ2πen2σ2(dθ)2
Suppose also that we know nothing about θ before taking the data (except that it's a location parameter) and therefore assign a uniform prior: f(θ)=k. Clearly we now have s(d|θ)f(θ)=s(θ|d)f(d), so the first premise is satisfied. Let s(d|θ)=g((dθ)2). (i.e. It can be written in that form.) Then
s(ψ+δ|ψ)=g((ψ+δψ)2)=g(δ2)ands(Dδ|D)=g((DδD)2)=g(δ2)so thatψδ[s(ψ+δ|ψ)=s(Dδ|D)]
whereupon the second premise is satisfied. Both premises being true, the eight-point argument leads us to conclude that the probability that θ lies in the confidence interval CD is h!

We therefore have an amusing irony:

  1. The frequentist who assigns the h confidence interval cannot say that P(θCD)=h, no matter how innocently uniform θ looks before incorporating the data.
  2. The Bayesian who would not assign an h confidence interval in that way knows anyhow that P(θCD|DI)=h.

Final Remarks

We have identified conditions (i.e. the two premises) under which the h confidence region does indeed yield probability h that θCD. A frequentist will baulk at the first premise, because it involves a prior on θ, and this sort of deal-breaker is inescapable on the route to a probability. But for a Bayesian, it is acceptable---nay, essential. These conditions are sufficient but not necessary, so there are many other circumstances under which the Bayesian P(θCD|DI) equals h. Equally though, there are many circumstances in which P(θCD|DI)h, especially when the prior information is significant.

We have applied a Bayesian analysis just as a consistent Bayesian would, given the information at hand, including statistics D. But a Bayesian, if he possibly can, will apply his methods to the raw measurements instead---to the {xi}, rather than x¯. Oftentimes, collapsing the raw data into summary statistics D destroys information in the data; and then the summary statistics are incapable of speaking as eloquently as the original data about the parameters θ.

CarbonFlambe--Reinstate Monica
la source
Would it be correct to say that a Bayesian is committed to take all the available information into account, while interpretation given in the question ignored D in some sense?
qbolec
Is it a good mental picture to illustrate the situation: imagine a grayscale image, where intensity of pixel x,y is the joint ppb of real param being y and observed stat being x. In each row y, we mark pixels which have 95% mass of the row. For each observed stat x, we define CI(x) to be the set of rows which have marked pixels in column x. Now, if we choose x,y randomly then CI(x) will contain y iff x,y was marked, and mass of marked pixels is 95% for each y. So, frequentists say that keeping y fixed, chance is 95%, OP says, that not fixing y also gives 95%, and bayesians fix y and don't know
qbolec
@qbolec It is correct to say that in the Bayesian method one cannot arbitrarily ignore some information while taking account of the rest. Frequentists say that for all y the expectation of yCI(x) (as a Boolean integer) under the sampling distribution prob(x|y,I) is 0.95. The frequentist 0.95 is not a probability but an expectation.
CarbonFlambe--Reinstate Monica
6

from a Bayesian probability perspective, why doesn't a 95% confidence interval contain the true parameter with 95% probability?

Two answers to this, the first being less helpful than the second

  1. There are no confidence intervals in Bayesian statistics, so the question doesn't pertain.

  2. In Bayesian statistics, there are however credible intervals, which play a similar role to confidence intervals. If you view priors and posteriors in Bayesian statistics as quantifying the reasonable belief that a parameter takes on certain values, then the answer to your question is yes, a 95% credible interval represents an interval within which a parameter is believed to lie with 95% probability.

If I have a process that I know produces a correct answer 95% of the time then the probability of the next answer being correct is 0.95 (given that I don't have any extra information regarding the process).

yes, the process guesses a right answer with 95% probability

Similarly if someone shows me a confidence interval that is created by a process that will contain the true parameter 95% of the time, should I not be right in saying that it contains the true parameter with 0.95 probability, given what I know?

Just the same as your process, the confidence interval guesses the correct answer with 95% probability. We're back in the world of classical statistics here: before you gather the data you can say there's a 95% probability of randomly gathered data determining the bounds of the confidence interval such that the mean is within the bounds.

With your process, after you've gotten your answer, you can't say based on whatever your guess was, that the true answer is the same as your guess with 95% probability. The guess is either right or wrong.

And just the same as your process, in the confidence interval case, after you've gotten the data and have an actual lower and upper bound, the mean is either within those bounds or it isn't, i.e. the chance of the mean being within those particular bounds is either 1 or 0. (Having skimmed the question you refer to it seems this is covered in much more detail there.)

How to interpret a confidence interval given to you if you subscribe to a Bayesian view of probability.

There are a couple of ways of looking at this

  1. Technically, the confidence interval hasn't been produced using a prior and Bayes theorem, so if you had a prior belief about the parameter concerned, there would be no way you could interpret the confidence interval in the Bayesian framework.

  2. Another widely used and respected interpretation of confidence intervals is that they provide a "plausible range" of values for the parameter (see, e.g., here). This de-emphasises the "repeated experiments" interpretation.

Moreover, under certain circumstances, notably when the prior is uninformative (doesn't tell you anything, e.g. flat), confidence intervals can produce exactly the same interval as a credible interval. In these circumstances, as a Bayesianist you could argue that had you taken the Bayesian route you would have gotten exactly the same results and you could interpret the confidence interval in the same way as a credible interval.

TooTone
la source
but for sure confidence intervals exist even if I subscribe to a bayesian view of probability, they just wont dissapear, right? :)The situation I was asking about was how to interpret a confidence interval given to you if you subscribe to a Bayesian view of probability.
Rasmus Bååth
The problem is that confidence intervals aren't produced using a Bayesian methodology. You don't start with a prior. I'll edit the post to add something which might help.
TooTone
2

I'll give you an extreme example where they are different.

Suppose I create my 95% confidence interval for a parameter θ as follows. Start by sampling the data. Then generate a random number between 0 and 1. Call this number u. If u is less than 0.95 then return the interval (,). Otherwise return the "null" interval.

Now over continued repititions, 95% of the CIs will be "all numbers" and hence contain the true value. The other 5% contain no values, hence have zero coverage. Overall, this is a useless, but technically correct 95% CI.

The Bayesian credible interval will be either 100% or 0%. Not 95%.

probabilityislogic
la source
So is it correct to say that before seeing a confidence interval there is a 95% probability that it will contain the true parameter, but for any given confidence interval the probability that it covers the true parameter depends on the data (and our prior)? To be honest, what I'm really struggling with is how useless confidence intervals sounds (credible intervals I like on the other hand) and the fact that I never the less will have to teach them to our students next week... :/
Rasmus Bååth
This question has some more examples, plus a very good paper comparing the two approaches
probabilityislogic
1

" Du point de vue de la probabilité bayésienne, pourquoi un intervalle de confiance à 95% ne contient-il pas le vrai paramètre avec une probabilité de 95%? "

Dans les statistiques bayésiennes, le paramètre n'est pas une valeur inconnue, c'est une distribution. Il n'y a pas d'intervalle contenant la "vraie valeur", pour un point de vue bayésien cela n'a même pas de sens. Le paramètre est une variable aléatoire, vous pouvez parfaitement connaître la probabilité que cette valeur soit comprise entre x_inf et x_max si vous connaissez la distribution. C'est juste un état d'esprit différent sur les paramètres, généralement les Bayésiens ont utilisé la valeur médiane ou moyenne de la distribution du paramètre comme une "estimation". Il n'y a pas d'intervalle de confiance dans les statistiques bayésiennes, quelque chose de similaire est appelé intervalle de crédibilité .

Maintenant, d'un point de vue fréquenciste, le paramètre est une "valeur fixe", pas une variable aléatoire, pouvez-vous vraiment obtenir un intervalle de probabilité (95%)? N'oubliez pas qu'il s'agit d'une valeur fixe et non d'une variable aléatoire avec une distribution connue. C'est pourquoi vous avez passé le texte : "Un intervalle de confiance ne prédit pas que la vraie valeur du paramètre a une probabilité particulière d'être dans l'intervalle de confiance compte tenu des données réellement obtenues."

L'idée de répéter l'expérience encore et encore ... n'est pas un raisonnement bayésien, c'est un fréquenciste. Imaginez une véritable expérience en direct que vous ne pouvez faire qu'une seule fois dans votre vie, pouvez-vous / devriez-vous construire cet intervalle de confiance (du point de vue classique)?.

But... in real life the results could get pretty close ( Bayesian vs Frequencist), maybe thats why It could be confusing.

blew
la source