Comment puis-je calculer l'intervalle de confiance d'une moyenne dans un échantillon non distribué normalement?

19

Comment puis-je calculer l'intervalle de confiance d'une moyenne dans un échantillon non distribué normalement?

Je comprends que les méthodes d'amorçage sont couramment utilisées ici, mais je suis ouvert à d'autres options. Pendant que je recherche une option non paramétrique, si quelqu'un peut me convaincre qu'une solution paramétrique est valide, ce serait bien. La taille de l'échantillon est> 400.

Si quelqu'un pouvait donner un échantillon en R, ce serait très apprécié.

fmark
la source
3
Le théorème central limite implique que la distribution limite de la moyenne de l'échantillon est normale quelle que soit la distribution des données d'origine (sous certaines conditions). Dans de nombreux cas, une taille d'échantillon est suffisamment grande pour que l'approximation normale soit assez précise mais la précision dépend de la distribution parente - cela pourrait aider si vous, par exemple, publiez un histogramme des données originales. n>400
Macro

Réponses:

18

Tout d'abord, je vérifierais si la moyenne est un indice approprié pour la tâche à accomplir. Si vous recherchez "une valeur typique / ou centrale" d'une distribution asymétrique, la moyenne peut vous indiquer une valeur plutôt non représentative. Considérez la distribution log-normale:

x <- rlnorm(1000)
plot(density(x), xlim=c(0, 10))
abline(v=mean(x), col="red")
abline(v=mean(x, tr=.20), col="darkgreen")
abline(v=median(x), col="blue")

Moyenne (rouge), moyenne ajustée à 20% (verte) et médiane (bleue) pour la distribution log-normale

La moyenne (ligne rouge) est assez éloignée de la majeure partie des données. La moyenne ajustée à 20% (vert) et la médiane (bleu) sont plus proches de la valeur "typique".

Les résultats dépendent du type de votre distribution "non normale" (un histogramme de vos données réelles serait utile). S'il n'est pas asymétrique, mais a une queue lourde, vos CI seront très larges.

En tout cas, je pense que le bootstrap est en effet une bonne approche, car il peut également vous donner des CI asymétriques. Le Rpackage simplebootest un bon début:

library(simpleboot)
# 20% trimmed mean bootstrap
b1 <- one.boot(x, mean, R=2000, tr=.2)
boot.ci(b1, type=c("perc", "bca"))

... vous donne le résultat suivant:

# The bootstrap trimmed mean:
> b1$t0
[1] 1.144648

BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 2000 bootstrap replicates
Intervals : 
Level     Percentile            BCa          
95%   ( 1.062,  1.228 )   ( 1.065,  1.229 )  
Calculations and Intervals on Original Scale
Felix S
la source
Merci beaucoup pour la réponse détaillée. Souhaitez-vous commenter la différence (minimale) entre les statistiques du centile et du centile ajusté (BCa)?
fmark
"L'intervalle accéléré (BCa) corrigé du biais bootstrap est une modification de la méthode des centiles qui ajuste les centiles pour corriger le biais et l'asymétrie" (Hesterberg, T., Monaghan, S., Moore, D., Clipson, A., & Epstein, R. (2005). Méthodes de bootstrap et tests de permutation. Introduction to the Practice of Statistics, 14.1–14.70.). Chaque fois que le logiciel le permet, utilisez le CI corrigé BCa (note: il a besoin de> 1000 rééchantillons)
Felix S
Il semble, d'après la documentation du package simpleboot, que l'argument pour le découpage n'est plus pris en charge. :(
et est
8

κ^/(6s2n)κ^O(n-1/2)O(n-1)n1/2>20n>400

Avoir la forme analytique de la correction moyenne vous donnerait une idée immédiate de la nécessité de prendre en compte l'asymétrie dans votre problème d'estimation moyenne. D'une certaine manière, c'est un outil de diagnostic de la gravité de la situation. Dans l'exemple de la distribution lognormale donnée par Felix, l'asymétrie normalisée de la distribution de la population est(exp(1)+2)exp(1)-1, ce qui est kappa = (exp(1)+2)*sqrt( exp(1) - 1) = 6.184877. La largeur de l'IC (en utilisant l'écart-type de la distribution de la population, s = sqrt( (exp(1)-1)*exp(1) ) = 2.161197) est 2*s*qnorm(0.975)/sqrt(n) = 0.2678999, tandis que la correction de la moyenne est kappa*s/(6*n) = 0.00222779(l'écart-type migré vers le numérateur étant donné kappal'asymétrie sans échelle, tandis que la formule de Johnson traite le tiers de la population non mise à l'échelle moment central), soit environ 1 / 100e de la largeur de l'IC. Devez-vous déranger? Je dirais non.

StasK
la source
2

Essayez une distribution log-normale, calculant:

  1. Logarithme des données;
  2. Écart moyen et standard de (1)
  3. Intervalle de confiance correspondant à (2)
  4. Exponentielle de (3)

Vous vous retrouverez avec un intervalle de confiance asymétrique autour de la valeur attendue (qui n'est pas la moyenne des données brutes).

Felipe G. Nievinski
la source