Un intervalle de confiance pour la variance serait-il plus étroit si nous connaissions la moyenne a priori?

8

Disons que nous connaissons la moyenne d'une distribution donnée. Cela affecte-t-il l'estimation par intervalle de la variance d'une variable aléatoire (qui est par ailleurs calculée à l'aide de la variance de l'échantillon)? Comme dans, pouvons-nous obtenir un intervalle plus petit pour le même niveau de confiance?

martianwars
la source
J'ai considérablement mis à jour ma réponse, je pense qu'elle répond pleinement à la question du PO maintenant. Les différences entre ma et les autres réponses étaient dues au fait que j'utilisais implicitement des variances conditionnelles. Maintenant, je les ai explicités. Fondamentalement, lorsque vous parlez de l'intervalle de confiance de l'estimateur de variance, vous devez tenir compte de la connaissance de la moyenne de la population.
Aksakal
On dirait que la question devrait être "pouvons-nous obtenir un intervalle plus précis pour le même niveau de confiance".
Gregor Thomas

Réponses:

12

Je ne suis pas tout à fait sûr que ma réponse est correcte, mais je dirais qu'il n'y a pas de relation générale. Voici mon point:

Étudions le cas où l'intervalle de confiance de la variance est bien compris, à savoir. échantillonnage à partir d'une distribution normale (comme vous l'indiquez dans le tag de la question, mais pas vraiment la question elle-même). Voir la discussion ici et ici .

Un intervalle de confiance pour découle du pivot , où . (Ceci est juste une autre façon d'écrire l'expression peut-être plus familière , où )σ2T=nσ^2/σ2χn12σ^2=1/ni(XiX¯)2T=(n1)s2/σ2χn12s2=1/(n1)i(XiX¯)2

Nous avons donc Par conséquent, un intervalle de confiance est . On peut choisir et comme quantiles et .

1α=Pr{cln1<T<cun1}=Pr{cln1nσ^2<1σ2<cun1nσ^2}=Pr{nσ^2cun1<σ2<nσ^2cln1}
(nσ^2/cun1,nσ^2/cln1)cln1cun1cun1=χn1,1α/22cln1=χn1,α/22

(Remarquez en passant que, quelle que soit la variance, estimez que, comme la est asymétrique, les quantiles produiront un ci avec la bonne probabilité de couverture, mais ne seront pas optimaux, c'est-à-dire ne seront pas les plus courts possibles. intervalle pour être aussi court que possible, nous exigeons que la densité soit identique à l'extrémité inférieure et supérieure de la ci, étant donné certaines conditions supplémentaires comme l'unimodalité. Je ne sais pas si l'utilisation de cette ci optimale changerait les choses dans cette réponse.)χ2

Comme expliqué dans les liens, , où utilise le connu signifier. Par conséquent, nous obtenons un autre intervalle de confiance valide Ici, et seront donc des quantiles de la 2_n.T=ns02/σ2χn2s02=1ni(Xiμ)2

1α=Pr{cln<T<cun}=Pr{ns02cun<σ2<ns02cln}
clncunχn2

Les largeurs des intervalles de confiance sont et La largeur relative est Nous savons que car la moyenne de l' échantillon minimise la somme des écarts au carré. Au-delà de cela, je vois peu de résultats généraux concernant la largeur de l'intervalle, car je ne suis pas au courant de résultats clairs sur la façon dont les différences et les produits des quantiles supérieur et inférieur se comportent lorsque nous augmentons les degrés de liberté de un (mais voir la figure ci-dessous).

wT=nσ^2(cun1cln1)cln1cun1
wT=ns02(cuncln)clncun
wTwT=σ^2s02cun1cln1cunclnclncuncln1cun1
σ^2/s021χ2

Par exemple, laisser

rn:=cun1cln1cunclnclncuncln1cun1,
nous avons

r101.226
pour et , ce qui signifie que le ci basé sur sera plus court si α=0.05n=10σ^2
σ^2s021.226

En utilisant le code ci-dessous, j'ai mené une petite étude de simulation suggérant que l'intervalle basé sur gagnera la plupart du temps. (Voir le lien publié dans la réponse d'Aksakal pour une rationalisation à grande échelle de ce résultat.)s02

La probabilité semble se stabiliser en , mais je ne connais pas d'explication analytique sur échantillon fini:n

entrez la description de l'image ici

    rm(list=ls())

IntervalLengthsSigma2 <- function(n,alpha=0.05,reps=100000,mu=1) {
  cl_a <- qchisq(alpha/2,df = n-1)
  cu_a <- qchisq(1-alpha/2,df = n-1)
  cl_b <- qchisq(alpha/2,df = n)
  cu_b <- qchisq(1-alpha/2,df = n)

  winners02 <- rep(NA,reps)

  for (i in 1:reps) {
    x <- rnorm(n,mean=mu)
    xbar <- mean(x)
    s2 <- 1/n*sum((x-xbar)^2)
    s02 <- 1/n*sum((x-mu)^2)

    ci_a <- c(n*s2/cu_a,n*s2/cl_a)
    ci_b <- c(n*s02/cu_b,n*s02/cl_b)

    winners02[i] <- ifelse(ci_a[2]-ci_a[1]>ci_b[2]-ci_b[1],1,0)  
  }
  mean(winners02)
}

nvalues <- matrix(seq(5,200,by=10)) 
plot(nvalues,apply(nvalues,1,IntervalLengthsSigma2),pch=19,col="lightblue",type="b")

La figure suivante trace contre , révélant (comme le suggère l'intuition) que le rapport tend vers 1. Comme, de plus, pour grand, la différence entre les largeurs des deux cis sera donc disparaître comme . (Voir à nouveau le lien publié dans la réponse d'Aksakal pour une rationalisation à grande échelle de ce résultat.)rnnX¯pμnn

entrez la description de l'image ici

Christoph Hanck
la source
1
Bonne solution, mais pouvez-vous dire quelle largeur est la plus susceptible de gagner?
martianwars
1
Vous auriez besoin de la distribution de probabilité de , son inverse ou celle de ou quelque chose de connexe. Cela vous permettrait de calculer analytiquement la probabilité de gain. wT/wTwTwT
Christoph Hanck
1
Oui, c'est pourquoi et . T=nσ^2/σ2χn12T=ns02/σ2χn2
Christoph Hanck
1
Je n'ai actuellement pas accès à l'article, mais si c'est "seulement" la variance des estimateurs, je ne vois pas de désaccord nécessaire (et ma simulation confirme que le connu- généralement mieux): qu'un estimateur fait mieux qu'un autre un en termes de variance n'empêche pas que le "pire" fasse mieux dans un échantillon donné - un peu dans la lignée de ce que dit @Scortchiμ
Christoph Hanck
1
Je pense qu'il est important de noter que votre simulation montre qu'en tant que , il ne semble pas y avoir de différence. Cela ne tient pas du tout compte de ce qui se passe comme , la longueur de augmente. Je me rends compte qu'il était supposé être 1, mais la différence entre et devient beaucoup plus importante à mesure que augmente. nkμsσ^k
Cliff AB
7

Permettez-moi d'abord de régler le problème. Nous connaissons la population moyenne. C'est un point très important à soulever dès le début, car sans lui, nous n'aurons pas de réponse significative.

Je vais vous expliquer pourquoi. Disons que nous avons un échantillon et que nous ne connaissons pas la moyenne de la population. Nous avons un estimateur habituel de la variance:

σ=1n1sumi(xix¯)2

Maintenant, on nous dit que la moyenne de la population est . Notre premier réflexe est de le brancher sur l'estimateur de variance:μ

σ=1nsumi(xiμ)2

Remarquez que c'est un estimateur différent maintenant! Il a un dénominateur différent, etc. Il a lui-même une variance différente .

Cependant, est-il juste de comparer et ? Non ce n'est pas.Var[σ]Var[σ]

Nous devons comparer et . Autrement dit il faut comparer la variance de ces deux estimateurs conditionnée à la connaissance de la moyenne de la population! Sinon, nous tomberons dans le paradoxe de @ Scortchi.Var[σ|E[xi]=μ]Var[σ|E[xi]=μ]

Lorsque vous avez de nouvelles informations, c'est-à-dire , vous devez les inclure dans l'estimation de ! Cela résout le paradoxe de @ Scortchi dans son commentaire directement. Les équations que j'ai vues jusqu'à présent dans les réponses n'incluent pas la connaissance de dans l'IC ou la variance de l'estimateur de variance . Dans l'exemple de @ Scortchi sachant que conduirait à une révision du CI de .E[xi]=μVar[σ]μσx¯>>μσ

Par conséquent, ma réponse ici suit la configuration que je plaisante décrite.

Oui, l'intervalle de confiance aurait été plus étroit.

D'un point de vue philosophique, la connaissance de la moyenne de la population est une information supplémentaire, donc l'incertitude doit être moindre dans ce cas.

Exemple: si votre distribution est de Poisson, alors la variance est égale à la moyenne. Par conséquent, connaître signifie que vous connaissez également la variance et l'intervalle de confiance se réduit à un point. Il n'y a pas d'intervalle.

MISE À JOUR: Regardez cet article : "Estimation d'une variance de la population avec une moyenne connue" par Zhang, 1996. Il compare l'estimation standard de la variance vs celui utilisant la connaissance de la population signifie . Il arrive à la même conclusion: la variance de la dernière estimation est plus petite que celle de la première, c'est-à-dire que l'intervalle de confiance de l'estimation de la variance serait plus étroit. Il montre également que l'avantage disparaît lorsque la taille de l'échantillon tend vers l'infini.1n1i(xix¯)21ni(xiμ)2

Je pense que ce document est la réponse définitive à votre question.

Aksakal
la source
n'est-ce pas contraire à ma réponse (du moins dans cette généralité - je suis bien sûr d'accord avec le bel exemple de Poisson)?
Christoph Hanck
1
Eh bien, il y a une différence entre la longueur attendue de l'intervalle de confiance et la longueur de l'intervalle de confiance que vous pourriez calculer à partir d'un ensemble de données particulier (considérez ce qui se passe lorsque la moyenne de l'échantillon est, exceptionnellement, très loin de la vraie moyenne de la population) .
Scortchi - Réintégrer Monica
+1, votre point sur la distribution de Poisson (et les distributions où la variance est fonction de la moyenne en général) est bon. Cependant, notez que l'OP semble avoir la distribution normale à l'esprit, et comme le montre la réponse de @ ChristophHanck, la situation y est plus compliquée.
gung - Rétablir Monica
@Scortchi, voir ma réponse à votre commentaire. L'essentiel: nous répondons à différentes questions. Je compare les différents estimateurs sous la même hypothèse de moyenne de population connue.
Aksakal
2
Je ne suis pas sûr de comprendre ce que vous entendez par . Cela signifie-t-il ? Sinon, quoi d'autre? Si oui, alors votre point serait peut-être plus clair si vous l'écrivez comme ça. Var[σ|E[xi]=μ]Var[σ|x¯=μ]
amibe du
3

Prolonger un peu la réponse de @Cristoph Hanck , et adapter son code…

Supposons que M. A ignore la vraie moyenne ou les statistiques, et M. B n'ignore ni l'un ni l'autre. Il peut sembler étrange, voire injuste, que M. A puisse obtenir un intervalle de confiance plus court pour la variance en utilisant le pivot que M. B en utilisant le pivot . Mais à long terme, M. B gagne dans un sens plutôt fort: ses intervalles de confiance sont stochastiquement plus étroits - pour toute largeur vous souhaitez spécifier, la proportion des IC de M. B plus étroite que est supérieure à la proportion de M. A.TTww

entrez la description de l'image ici

La collecte du sous-ensemble des cas où l'IC de M. A ressort plus étroit montre que dans ces cas, il a une couverture plus faible (environ 91%); mais il le paie avec une couverture plus élevée (environ 96%) dans le sous-ensemble des cas où son intervalle sort plus large, obtenant la couverture correcte (95%) dans l'ensemble. Bien sûr, M. A ne sait pas quand ses CI dans quel sous-ensemble. Et un Mr C rusé qui connaît la vraie moyenne et sélectionne ou selon lequel les résultats dans le CI le plus étroit seront finalement exposés lorsque ses intervalles ne parviennent pas à maintenir leur couverture supposée de 95%.TT

IntervalLengthsSigma2 <- function(n,alpha=0.05,reps=100000,mu=1) {
  cl_a <- qchisq(alpha/2,df = n-1)
  cu_a <- qchisq(1-alpha/2,df = n-1)
  cl_b <- qchisq(alpha/2,df = n)
  cu_b <- qchisq(1-alpha/2,df = n)

  winners02 <- rep(NA,reps)
  width.a <- rep(NA,reps)
  width.b <- rep(NA,reps)
  sigma2.in.a <- rep(NA,reps)
  sigma2.in.b <- rep(NA,reps)

  for (i in 1:reps) {
    x <- rnorm(n,mean=mu)
    xbar <- mean(x)
    s2 <- 1/n*sum((x-xbar)^2)
    s02 <- 1/n*sum((x-mu)^2)

    ci_a <- c(n*s2/cu_a,n*s2/cl_a)
    ci_b <- c(n*s02/cu_b,n*s02/cl_b)

    winners02[i] <- ifelse(ci_a[2]-ci_a[1]>ci_b[2]-ci_b[1],1,0) 
    ci_a[2]-ci_a[1] -> width.a[i]
    ci_b[2]-ci_b[1] -> width.b[i]
    ifelse(ci_a[1]< 1 & ci_a[2] > 1, 1, 0) -> sigma2.in.a[i]
    ifelse(ci_b[1]< 1 & ci_b[2] > 1, 1, 0) -> sigma2.in.b[i]
  }

 list(n=n, width.a=width.a,width.b=width.b, sigma2.in.a=sigma2.in.a, sigma2.in.b=sigma2.in.b, winner=winners02)
}

# simulate for sample size of 6
IntervalLengthsSigma2(n=6) -> sim

# plot empirical CDFs of CI widths for mean known & mean unknown
plot(ecdf(sim$width.a), xlab="CI width", ylab="empirical CDF", sub=paste("n=",sim$n), main="")
lines(ecdf(sim$width.b), col="red")
legend("bottomright", lty=1, col=c("black", "red"), legend=c("mean unknown (Mr A)", "mean known (Mr B)"))

# coverage with mean unknown:
mean(sim$sigma2.in.a)
# coverage with mean unknown when CI is narrower than with mean known:
mean(sim$sigma2.in.a[sim$winner==0])
# coverage with mean unknown when CI is wider than with mean known:
mean(sim$sigma2.in.a[sim$winner==1])

# coverage with mean known:
mean(sim$sigma2.in.b)
# coverage with mean known when CI is wider than with mean unknown:
mean(sim$sigma2.in.b[sim$winner==0])
# coverage with mean known when CI is narrower than with mean unknown;
mean(sim$sigma2.in.b[sim$winner==1])
Scortchi - Réintégrer Monica
la source
2

Je ne peux pas commenter, mais la déclaration radicale d'Aksakal "connaître la moyenne de la population est une information supplémentaire, donc l'incertitude doit être plus petite dans ce cas" n'est pas évident.

Dans le cas normalement distribué, l'estimateur du maximum de vraisemblance de la variance lorsque est inconnu:μ

1ni=1n(XiX¯)2

a une variance uniformément plus faible que

1ni=1n(Xiμ)2

pour toutes les valeurs deμ,σ

Rand Forrester
la source
Avez-vous lu le document dans ma réponse?
Aksakal
Non, mais la variance non biaisée de l'échantillon que vous avez mentionnée dans votre mise à jour n'est pas l'estimateur du maximum de vraisemblance, donc je ne suis pas sûr que le document soit pertinent. Vous pouvez faire une étude de simulation rapide pour vérifier ma réclamation.
Rand Forrester
même si vous utilisez votre estimateur, mon point de vue est que pour avoir une comparaison significative, vous devez calculer la varaince de l'estimateur conditionnelle à la connaissance de . Selon vous, quelle est la variance de deux estimateurs que vous avez donnés? Avant de répondre à ma question, assurez-vous que les deux incluent d'une manière ou d'une autre. μμ
Aksakal
2
Aksakal, je parle de comparer la variance d'échantillonnage du MLE de lorsque vous le faites par rapport à ne sais pas . Dans ce contexte, je ne sais pas ce que signifie "calculer la variance de l'estimateur conditionnel à la connaissance de ". Concernant votre question, il n'est pas nécessaire de donner un calcul exact. Une simple étude de simulation vérifiera ce que je dis. σ^μμ
Rand Forrester
3
Écoutez, je ne serais pas surpris si vous aviez raison, mais si vous voulez laisser entendre que je suis incompétent, veuillez clarifier ce que signifie "conditionnel à ". «Conditionnel» n'a de définition technique (pour autant que je sache) que lorsqu'il fait référence à des variables aléatoires. J'ai supposé qu'il s'agissait d'une référence abrégée à l'estimation de lorsque est supposé être connu, par exemple le MLE, par opposition au MLE de quand vous ne savez pas : Il semble que vous vouliez dire autre chose. J'aimerais une clarification. Merci. μσμ
1n(Xiμ)2
σμ
1n(XiX¯)2
Rand Forrester du