Soit une famille de variables aléatoires iid prenant des valeurs dans , ayant une moyenne et une variance . Un intervalle de confiance simple pour la moyenne, utilisant chaque fois qu'elle est connue, est donné par
Aussi, parce que est asymptotiquement distribué comme une variable aléatoire normale standard, la distribution normale est parfois utilisée pour "construire" un intervalle de confiance approximatif.
Dans les examens de statistiques à choix multiples, j'ai dû utiliser cette approximation au lieu de chaque fois que . Je me suis toujours senti très mal à l'aise avec cela (plus que vous ne pouvez l'imaginer), car l'erreur d'approximation n'est pas quantifiée.
Pourquoi utiliser l'approximation normale plutôt que ?
Je ne veux plus jamais appliquer aveuglément la règle . Y a-t-il de bonnes références qui peuvent me soutenir dans un refus de le faire et proposer des alternatives appropriées? ( est un exemple de ce que je considère comme une alternative appropriée.)
Ici, alors que et sont inconnus, ils sont facilement délimités.
Veuillez noter que ma question est une demande de référence en particulier sur les intervalles de confiance et est donc distincte des diffère des questions qui ont été suggérées comme doublons partiels ici et ici . On n'y répond pas.
Réponses:
Pourquoi utiliser une approximation normale?
C'est aussi simple que de dire qu'il vaut toujours mieux utiliser plus d'informations que moins. L'équation (1) utilise le théorème de Chebyshev . Notez comment il n'utilise aucune information sur la forme de votre distribution, c'est-à-dire qu'il fonctionne pour n'importe quelle distribution avec une variance donnée. Par conséquent, si vous utilisez des informations sur la forme de votre distribution, vous devez obtenir une meilleure approximation. Si vous saviez que votre distribution est gaussienne, alors en utilisant cette connaissance, vous obtenez une meilleure estimation.
Puisque vous appliquez déjà le théorème de la limite centrale, pourquoi ne pas utiliser l'approximation gaussienne des bornes? Ils vont être meilleurs, en fait, plus serrés (ou plus nets) parce que ces estimations sont basées sur la connaissance de la forme qui est une information supplémentaire.
La règle d'or 30 est un mythe qui bénéficie du biais de confirmation . Il ne cesse d'être copié d'un livre à l'autre. Une fois, j'ai trouvé une référence suggérant cette règle dans un article des années 50. Ce n'était pas une sorte de preuve solide, si je me souviens bien. C'était une sorte d'étude empirique. Fondamentalement, la seule raison pour laquelle il est utilisé est qu'il fonctionne en quelque sorte. Vous ne le voyez pas souvent violé.
MISE À JOUR Recherchez l'article de Zachary R. Smith et Craig S. Wells « Théorème central limite et taille de l'échantillon ». Ils présentent une étude empirique de la convergence vers CLT pour différents types de distributions. Le nombre magique 30 ne fonctionne pas dans de nombreux cas, bien sûr.
la source
Le problème avec l'utilisation de l'inégalité de Chebyshev pour obtenir un intervalle pour la vraie valeur, c'est qu'elle ne vous donne qu'une limite inférieure pour la probabilité, qui est d'ailleurs parfois triviale, ou, pour ne pas être triviale, elle peut donner une très large Intervalle de confiance. Nous avons
Nous voyons que, en fonction également de la taille de l'échantillon, si nous diminuons "trop", nous obtiendrons la réponse triviale "la probabilité est supérieure à zéro".ε
En dehors de cela, ce que nous obtenons de cette approche est une conclusion de la forme "" la probabilité que tombe dans [ ˉ X ± ε ] est égale ou supérieure à ... "μ [X¯±ε]
Mais supposons que nous sommes bons avec cela, et notons la probabilité minimale avec laquelle nous sommes à l'aise. Nous voulons doncpmin
Avec de petits échantillons et une probabilité minimale souhaitée élevée, cela peut donner un intervalle de confiance largement insatisfaisant. Par exemple, pour et n = 100, nous obtiendrons ε ≈ .316 , qui, par exemple pour la variable traitée par l'OP qui est borné dans [ 0 , 1 ] semble être trop grande pour être utile.pmin=0.9 n=100 ε≈.316 [0,1]
Mais l'approche est valide et sans distribution, et il peut donc y avoir des cas où elle peut être utile.
On peut aussi vouloir vérifier l' inégalité Vysochanskij – Petunin mentionnée dans une autre réponse, qui vaut pour les distributions unimodales continues et affine l'inégalité de Chebyshev.
la source
La réponse courte est que cela peut aller assez mal, mais seulement si une ou les deux queues de la distribution d'échantillonnage sont vraiment grasses .
Ce code R génère un million d'ensembles de 30 variables distribuées gamma et prend leur moyenne; il peut être utilisé pour avoir une idée de la distribution d'échantillonnage de la moyenne. Si l'approximation normale fonctionne comme prévu, les résultats doivent être approximativement normaux avec la moyenne 1 et la variance
1/(30 * shape)
.f = function(shape){replicate(1E6, mean(rgamma(30, shape, shape)))}
Quand
shape
est 1.0, la distribution gamma devient une distribution exponentielle , ce qui est assez inhabituel. Néanmoins, les parties non gaussiennes ont généralement une moyenne et donc l'approximation gaussienne n'est pas si mauvaise:Il y a clairement un certain biais, et il serait bon d'éviter cela lorsque cela est possible. Mais honnêtement, ce niveau de biais ne sera probablement pas le plus gros problème auquel est confrontée une étude typique.
Cela dit, les choses peuvent empirer. Avec
f(0.01)
, l'histogramme ressemble à ceci:La transformation du journal des 30 points de données échantillonnés avant la moyenne aide beaucoup, cependant:
En général, les distributions à queue longue (d'un côté ou des deux côtés de la distribution) nécessiteront le plus d'échantillons avant que l'approximation gaussienne ne devienne fiable. Il y a même des cas pathologiques où il n'y aura littéralement jamais assez de données pour que l'approximation gaussienne fonctionne, mais vous aurez probablement des problèmes plus graves dans ce cas (parce que la distribution d'échantillonnage n'a pas de moyenne ou de variance bien définie pour commencer avec).
la source
Problème avec l'intervalle de confiance de Chebyshev
Comme mentionné par Carlo, nous avons . Cela découle deVar(X)≤μ(1-μσ2≤14 . Par conséquent, un intervalle de confiance pour μ est donné par
P ( | ˉ X - μ | ≥ ε ) ≤ 1Var(X)≤μ(1−μ) μ
Le problème est que l'inégalité est, dans un certain sens, assez lâche lorsquendevient grand. Une amélioration est donnée par la borne de Hoeffding et montrée ci-dessous. Cependant, nous pouvons également montrer à quel point cela peut devenir mauvais en utilisant lethéorème de Berry-Esseen, souligné par Yves. SoitXiune variance1
Comparaison des longueurs des intervalles de confiance
Considérons les longueurs d'intervalle de confiance de niveau ℓ Z ( α , n ) et(1−α) ℓZ(α,n) obtenues en utilisant l'approximation normale ( σ = 1ℓC(α,n) σ=12 ℓC(α,n) ℓZ(α,n) n n
Utiliser la borne de Hoeffding
la source
curve(sqrt(-log(.025)/2/x), to= 100, col= 'red', xlab= 'n', ylab= 'half interval') #Hoeffding ; curve(qnorm(.975, 0, .5/sqrt(x)), to= 100, add= T, col= 'darkgreen') #normal approximation
commençons par le chiffre 30: c'est, comme tout le monde le dira, une règle d'or. mais comment trouver un chiffre qui correspond mieux à nos données? C'est en fait surtout une question d'asymétrie: même la distribution la plus étrange convergera rapidement vers la normale si elle est simétrique et continue, les données asymétriques seront beaucoup plus lentes. Je me souviens avoir appris qu'une distribution binomiale peut être correctement approchée à la normale lorsque sa variance est supérieure à 9; pour cet exemple, il faut considérer que la distribution discrète a également le problème d'avoir besoin de grands nombres pour simuler la continuité, mais pensez-y: une distribution binomiale simétrique atteindra cette variance avec n = 36, si p = 0,1 à la place, n doit aller jusqu'à 100 (la transformation variabile, cependant, aiderait beaucoup)!
Si vous souhaitez uniquement utiliser la variance, en laissant tomber l'approximation gaussienne, considérez l'inégalité de Vysochanskij-Petunin par rapport à Tchebichev, elle a besoin de l'hypothèse d'une distribution unimodale de la moyenne, mais celle-ci est très sûre avec n'importe quelle taille d'échantillon, je dirais, plus grande que 2.
la source