Erreur d'approximation de l'intervalle de confiance pour la moyenne lorsque

15

Soit {Xi}i=1n une famille de variables aléatoires iid prenant des valeurs dans [0,1] , ayant une moyenne μ et une variance σ2 . Un intervalle de confiance simple pour la moyenne, utilisant σ chaque fois qu'elle est connue, est donné par

P(|X¯μ|>ε)σ2nε21nε2(1).

Aussi, parce que X¯μσ/n est asymptotiquement distribué comme une variable aléatoire normale standard, la distribution normale est parfois utilisée pour "construire" un intervalle de confiance approximatif.


Dans les examens de statistiques à choix multiples, j'ai dû utiliser cette approximation au lieu de (1) chaque fois que n30 . Je me suis toujours senti très mal à l'aise avec cela (plus que vous ne pouvez l'imaginer), car l'erreur d'approximation n'est pas quantifiée.


  • Pourquoi utiliser l'approximation normale plutôt que (1) ?

  • Je ne veux plus jamais appliquer aveuglément la règle n30 . Y a-t-il de bonnes références qui peuvent me soutenir dans un refus de le faire et proposer des alternatives appropriées? ( (1) est un exemple de ce que je considère comme une alternative appropriée.)

Ici, alors que σ et E[|X|3] sont inconnus, ils sont facilement délimités.

Veuillez noter que ma question est une demande de référence en particulier sur les intervalles de confiance et est donc distincte des diffère des questions qui ont été suggérées comme doublons partiels ici et ici . On n'y répond pas.

Olivier
la source
2
Vous devrez peut-être améliorer l'approximation trouvée dans les références classiques et exploiter le fait que les sont en ( 0 , 1 ) qui, comme vous l'avez remarqué, donne des informations sur les moments. L'outil magique, je crois, sera le théorème de Berry-Esseen! Xi(0,1)
Yves
1
avec ces limites, la variance ne peut pas être supérieure à 0,25, bien meilleure que 1, n'est-ce pas?
carlo

Réponses:

3

Pourquoi utiliser une approximation normale?

C'est aussi simple que de dire qu'il vaut toujours mieux utiliser plus d'informations que moins. L'équation (1) utilise le théorème de Chebyshev . Notez comment il n'utilise aucune information sur la forme de votre distribution, c'est-à-dire qu'il fonctionne pour n'importe quelle distribution avec une variance donnée. Par conséquent, si vous utilisez des informations sur la forme de votre distribution, vous devez obtenir une meilleure approximation. Si vous saviez que votre distribution est gaussienne, alors en utilisant cette connaissance, vous obtenez une meilleure estimation.

Puisque vous appliquez déjà le théorème de la limite centrale, pourquoi ne pas utiliser l'approximation gaussienne des bornes? Ils vont être meilleurs, en fait, plus serrés (ou plus nets) parce que ces estimations sont basées sur la connaissance de la forme qui est une information supplémentaire.

La règle d'or 30 est un mythe qui bénéficie du biais de confirmation . Il ne cesse d'être copié d'un livre à l'autre. Une fois, j'ai trouvé une référence suggérant cette règle dans un article des années 50. Ce n'était pas une sorte de preuve solide, si je me souviens bien. C'était une sorte d'étude empirique. Fondamentalement, la seule raison pour laquelle il est utilisé est qu'il fonctionne en quelque sorte. Vous ne le voyez pas souvent violé.

MISE À JOUR Recherchez l'article de Zachary R. Smith et Craig S. Wells « Théorème central limite et taille de l'échantillon ». Ils présentent une étude empirique de la convergence vers CLT pour différents types de distributions. Le nombre magique 30 ne fonctionne pas dans de nombreux cas, bien sûr.

Aksakal
la source
+1 Pour une explication sensée. Mais n'y a-t-il pas un risque d'utiliser des informations qui ne sont pas tout à fait correctes? Le CLT ne dit rien sur la distribution de pour un n fixe . X¯n
Olivier
à droite, CLT ne dit rien sur la distribution de l'échantillon fini, mais ne faites pas d'équations asympthotiques. Cependant, indéniablement, ils disposent d'informations utiles, c'est pourquoi les relations limitantes sont utilisées partout. Le problème avec Chebyshev est qu'il est si large qu'il est rarement utilisé en dehors de la classe. Par exemple, pour un écart-type, la probabilité qu'il donne est - peu d'informations pratiques<1/k2=1
Aksakal
Pourtant, pour prenant les valeurs 0 ou 1 avec une probabilité égale, votre application de Chebyshev est nette. ;) Le problème est que Chebyshev, appliqué à une moyenne d'échantillon, ne restera jamais net à mesure que n grandit. Xn
Olivier
Je ne sais pas pour le papier de Smith et Wells, j'ai essayé de le reproduire en R et je n'ai pas pu retrouver leurs conclusions ...
Alex Nelson
9

Le problème avec l'utilisation de l'inégalité de Chebyshev pour obtenir un intervalle pour la vraie valeur, c'est qu'elle ne vous donne qu'une limite inférieure pour la probabilité, qui est d'ailleurs parfois triviale, ou, pour ne pas être triviale, elle peut donner une très large Intervalle de confiance. Nous avons

P(|X¯μ|>ε)=1P(X¯εμX¯+ε)

P(X¯εμX¯+ε)11nε2

Nous voyons que, en fonction également de la taille de l'échantillon, si nous diminuons "trop", nous obtiendrons la réponse triviale "la probabilité est supérieure à zéro".ε

En dehors de cela, ce que nous obtenons de cette approche est une conclusion de la forme "" la probabilité que tombe dans [ ˉ X ± ε ] est égale ou supérieure à ... "μ[X¯±ε]

Mais supposons que nous sommes bons avec cela, et notons la probabilité minimale avec laquelle nous sommes à l'aise. Nous voulons doncpmin

11nε2=pminε=1(1pmin)n

Avec de petits échantillons et une probabilité minimale souhaitée élevée, cela peut donner un intervalle de confiance largement insatisfaisant. Par exemple, pour et n = 100, nous obtiendrons ε .316 , qui, par exemple pour la variable traitée par l'OP qui est borné dans [ 0 , 1 ] semble être trop grande pour être utile.pmin=0.9n=100ε.316[0,1]

Mais l'approche est valide et sans distribution, et il peut donc y avoir des cas où elle peut être utile.

On peut aussi vouloir vérifier l' inégalité Vysochanskij – Petunin mentionnée dans une autre réponse, qui vaut pour les distributions unimodales continues et affine l'inégalité de Chebyshev.

Alecos Papadopoulos
la source
Je ne suis pas d'accord pour dire qu'un problème avec Chebychev est qu'il ne donne qu'une limite inférieure pour la probabilité. Dans un environnement sans distribution, une borne inférieure est la meilleure que nous puissions espérer. Les questions importantes sont: Chebychev est-il vif? La longueur du Chebychev CI est-elle systématiquement surestimée pour un niveau fixe ? J'ai répondu à cela dans mon post, d'un point de vue particulier. Cependant, j'essaie toujours de comprendre si Chebychev pour une moyenne d'échantillon ne réussira pas toujours à être précis, dans un sens plus fort. α
Olivier
La longueur de l'IC n'est pas sous-estimée, car il n'existe pas de longueur inconnue unique, donc je ne sais pas ce que vous entendez en utilisant le mot «surestimation» ici. Différentes méthodes fournissent différents IC, ce qui nous permet bien sûr de les évaluer et de les évaluer.
Alecos Papadopoulos
La surestimation était un mauvais choix de mots, merci de l'avoir souligné. Par «longueur systématiquement surestimée», je voulais dire que la méthode pour obtenir un IC donne toujours quelque chose de plus grand que nécessaire.
Olivier
1
@Olivier D'une manière générale, l'inégalité de Chebyshev est connue pour être une inégalité lâche, et donc plus utilisée comme un outil dans les dérivations théoriques et les preuves plutôt que dans les travaux appliqués.
Alecos Papadopoulos
2
@Olivier "D'une manière générale" couvre votre qualification, je dirais.
Alecos Papadopoulos
7

La réponse courte est que cela peut aller assez mal, mais seulement si une ou les deux queues de la distribution d'échantillonnage sont vraiment grasses .

Ce code R génère un million d'ensembles de 30 variables distribuées gamma et prend leur moyenne; il peut être utilisé pour avoir une idée de la distribution d'échantillonnage de la moyenne. Si l'approximation normale fonctionne comme prévu, les résultats doivent être approximativement normaux avec la moyenne 1 et la variance 1/(30 * shape).

f = function(shape){replicate(1E6, mean(rgamma(30, shape, shape)))}

Quand shapeest 1.0, la distribution gamma devient une distribution exponentielle , ce qui est assez inhabituel. Néanmoins, les parties non gaussiennes ont généralement une moyenne et donc l'approximation gaussienne n'est pas si mauvaise:

histogramme et tracé de densité

Il y a clairement un certain biais, et il serait bon d'éviter cela lorsque cela est possible. Mais honnêtement, ce niveau de biais ne sera probablement pas le plus gros problème auquel est confrontée une étude typique.

Cela dit, les choses peuvent empirer. Avec f(0.01), l'histogramme ressemble à ceci:

histogramme

La transformation du journal des 30 points de données échantillonnés avant la moyenne aide beaucoup, cependant:

histogramme

En général, les distributions à queue longue (d'un côté ou des deux côtés de la distribution) nécessiteront le plus d'échantillons avant que l'approximation gaussienne ne devienne fiable. Il y a même des cas pathologiques où il n'y aura littéralement jamais assez de données pour que l'approximation gaussienne fonctionne, mais vous aurez probablement des problèmes plus graves dans ce cas (parce que la distribution d'échantillonnage n'a pas de moyenne ou de variance bien définie pour commencer avec).

David J. Harris
la source
Je trouve l'expérience très pertinente et intéressante. Je ne prendrai pas cela comme réponse, cependant, car il ne résout pas le nœud du problème.
Olivier
1
quel est le nœud?
David J. Harris
Votre réponse ne fournit pas une base rigoureuse pour de bonnes pratiques statistiques. Il ne donne que des exemples. Notez également que les variables aléatoires que je considère sont limitées, ce qui change considérablement le pire des cas.
Olivier
@Glen_b: cette réponse n'est pas si pertinente pour votre version révisée de la question. Dois-je simplement le laisser ici, ou recommanderiez-vous autre chose?
David J. Harris
3

Problème avec l'intervalle de confiance de Chebyshev

Comme mentionné par Carlo, nous avons . Cela découle deVar(X)μ(1-μσ214 . Par conséquent, un intervalle de confiance pour μ est donné par P ( | ˉ X - μ |ε ) 1Var(X)μ(1μ)μ Le problème est que l'inégalité est, dans un certain sens, assez lâche lorsquendevient grand. Une amélioration est donnée par la borne de Hoeffding et montrée ci-dessous. Cependant, nous pouvons également montrer à quel point cela peut devenir mauvais en utilisant lethéorème de Berry-Esseen, souligné par Yves. SoitXiune variance1

P(|X¯μ|ε)14nε2.
nXi , le pire des cas. Le théorème implique que P(| ˉ X -μ|ε14SFest la fonction de survie de la distribution normale standard. En particulier, avecε=16, on obtientSF(16)e-P(|X¯μ|ε2n)2SF(ε)+8n,SFε=16 (selon Scipy), de sorte que essentiellement P( | ˉ X -μ | 8SF(16)e58 alors que l'inégalité de Chebyshev implique
P(|X¯μ|8n)8n+0,()
Notez que je n'ai pas essayé d'optimiser la borne donnée en(), le résultat ici n'a qu'un intérêt conceptuel.
P(|X¯μ|8n)1256.
()

Comparaison des longueurs des intervalles de confiance

Considérons les longueurs d'intervalle de confiance de niveau Z ( α , n ) et(1α)Z(α,n) obtenues en utilisant l'approximation normale ( σ = 1C(α,n)σ=12C(α,n)Z(α,n)nn

C(α,n)=κ(α)Z(α,n),κ(α)=(ISF(α2)α)1,
ISF

enter image description here

95%2.3


Utiliser la borne de Hoeffding

P(|X¯μ|ε)2e2nε2.
(1α)μ
(X¯ε,X¯+ε),ε=lnα22n,
H(α,n)=2εCσ=1/2ZHα=0.05

enter image description here

Olivier
la source
Très intéressant! J'ai cependant quelques corrections à vous suggérer avec une grande perplexité: tout d'abord, vous devriez retirer la valeur absolue de la définition d'inégalité de Hoeffding, c'estP(X¯-με)e-2nε2 ou P(|X¯-μ|ε)2e-2nε2; la deuxième correction est moins importante, α est généralement considéré comme étant de 0,05 ou moins, tandis que 0,95 est considéré comme 1-α,c'est un peu déroutant de les voir basculer dans votre message.
carlo
Dernier et plus important: j'ai trouvé votre résultat incroyable, j'ai donc essayé de le reproduire en R et j'ai obtenu un résultat complètement opposé: une approximation normale me donne des intervalles de confiance plus petits! c'est le code que j'ai utilisé:curve(sqrt(-log(.025)/2/x), to= 100, col= 'red', xlab= 'n', ylab= 'half interval') #Hoeffding ; curve(qnorm(.975, 0, .5/sqrt(x)), to= 100, add= T, col= 'darkgreen') #normal approximation
carlo
0

commençons par le chiffre 30: c'est, comme tout le monde le dira, une règle d'or. mais comment trouver un chiffre qui correspond mieux à nos données? C'est en fait surtout une question d'asymétrie: même la distribution la plus étrange convergera rapidement vers la normale si elle est simétrique et continue, les données asymétriques seront beaucoup plus lentes. Je me souviens avoir appris qu'une distribution binomiale peut être correctement approchée à la normale lorsque sa variance est supérieure à 9; pour cet exemple, il faut considérer que la distribution discrète a également le problème d'avoir besoin de grands nombres pour simuler la continuité, mais pensez-y: une distribution binomiale simétrique atteindra cette variance avec n = 36, si p = 0,1 à la place, n doit aller jusqu'à 100 (la transformation variabile, cependant, aiderait beaucoup)!

Si vous souhaitez uniquement utiliser la variance, en laissant tomber l'approximation gaussienne, considérez l'inégalité de Vysochanskij-Petunin par rapport à Tchebichev, elle a besoin de l'hypothèse d'une distribution unimodale de la moyenne, mais celle-ci est très sûre avec n'importe quelle taille d'échantillon, je dirais, plus grande que 2.

carlo
la source
Pourriez-vous ajouter une référence pour "l'inégalité Vysochanskij – Petunin"? Jamais entendu parler!
kjetil b halvorsen
wikipedia docet
carlo
Pouvez-vous exprimer le taux de convergence en termes d'asymétrie? Pourquoi un échantillon de, diriez-vous 2, est-il suffisant pour unimodalité? En quoi l'inégalité Vysochanskij – Petunin est-elle une amélioration par rapport à Chebychev si vous devez doubler ou tripler la taille de l'échantillon pour qu'elle s'applique?
Olivier
J'ai fait une recherche rapide sur Google et j'ai découvert que la distribution binomiale est en fait souvent utilisée pour expliquer le besoin de différentes tailles d'échantillon pour les données asymétriques, mais je ne l'ai pas trouvé, et je suppose qu'il n'y a pas de "taux de convergence accepté en termes d'asymétrie ".
carlo
L'inégalité de Vysochanskij – Petunin est plus efficace que celle de Chebychev, donc elle n'a pas besoin d'un plus grand échantillon du tout, mais elle a certaines contraintes d'utilisation: d'abord, vous devez avoir une distribution continue, que, elle doit être unimodale (pas de modes locaux sont autorisés). Il peut sembler étrange de laisser tomber l'hypothèse de normalité pour en adopter une autre, mais si vos données ne sont pas discrètes, la moyenne de l'échantillon devrait éliminer les modes locaux même avec de très petits échantillons. Le fait est que la moyenne a une grande distribution de cloche et, même si elle peut être asymétrique ou avoir de grosses queues, elle n’a rapidement qu’un seul mode.
carlo