Voici un tracé QQ pour mon échantillon (notez l'axe Y logarithmique); :
Comme l'a souligné whuber, cela indique que la distribution sous-jacente est asymétrique à gauche (la queue droite est plus courte).
En utilisant shapiro.test
(sur les données transformées par log) dans R, j'obtiens une statistique de test de et une valeur de p de , ce qui signifie que nous rejetons formellement l'hypothèse nulle au niveau de confiance de 95%.
Ma question est la suivante: est-ce suffisamment bon dans la pratique pour une analyse plus approfondie en supposant la (log-) normalité? En particulier, je voudrais calculer les intervalles de confiance pour les moyennes d'échantillons similaires en utilisant la méthode approximative de Cox et Land (décrite dans l'article: Zou, GY, cindy Yan Huo et Taleban, J. (2009). Intervalles de confiance simples pour moyennes lognormales et leurs différences avec les applications environnementales. Environmetrics 20, 172-180):
ci <- function (x) {
y <- log(x)
n <- length(y)
s2 <- var(y)
m <- mean(y) + s2 / 2
z <- qnorm(1 - 0.05 / 2) # 95%
#z <- qnorm(1 - 0.10 / 2) # 90%
d <- z * sqrt(s2 / n + s2 * s2 / (2 * (n - 1)))
return(c(exp(m - d), exp(m + d)))
}
J'ai remarqué que les intervalles de confiance ont tendance à être centrés autour d'un point légèrement supérieur à la moyenne réelle de l'échantillon. Par exemple:
> mean(x)
[1] 82.3076
> y <- log(x)
> exp(mean(y) + var(y) / 2)
[1] 91.22831
Je pense que ces deux valeurs devraient être les mêmes sous .
la source
Réponses:
Ces données ont une queue courte par rapport à une distribution log-normale, un peu comme une distribution Gamma:
Néanmoins, comme les données sont fortement asymétriques à droite, nous pouvons nous attendre à ce que les valeurs les plus élevées jouent un rôle important dans l'estimation de la moyenne et de son intervalle de confiance. Par conséquent, nous devons prévoir qu'un estimateur lognormal (LN) aura tendance à surestimer la moyenne et les deux limites de confiance .
Vérifions et, pour comparaison, utilisons les estimateurs habituels: c'est-à-dire la moyenne de l'échantillon et son intervalle de confiance en théorie normale. Il est à noter que les estimateurs habituels reposent uniquement sur la normalité approximative de la moyenne de l' échantillon , et non sur les données, et - avec un ensemble de données aussi volumineux - devraient fonctionner correctement. Pour ce faire, nous avons besoin d'une légère modification de la
ci
fonction:Voici une fonction parallèle pour les estimations de la théorie normale:
Appliquées à cet ensemble de données simulées, les sorties sont
ci.u
Il est maintenant clair que les procédures lognormales ont tendance à surestimer la moyenne et les limites de confiance, alors que les procédures habituelles font du bon travail. Nous pouvons estimer les couvertures des procédures d'intervalle de confiance:
Ce calcul dit:
La limite inférieure LN ne couvrira pas la vraie moyenne environ 22,3% du temps (au lieu des 2,5% prévus).
La limite inférieure habituelle ne couvrira pas la vraie moyenne environ 2,3% du temps, près des 2,5% prévus.
La limite supérieure LN dépassera toujours la vraie moyenne (au lieu de tomber en dessous de 2,5% du temps comme prévu). Cela en fait un intervalle de confiance bilatéral de 100% - (22,3% + 0%) = 77,7% au lieu d'un intervalle de confiance de 95%.
La limite supérieure habituelle ne couvrira pas la vraie moyenne environ 100 - 96,5 = 3,5% du temps. C'est un peu plus que la valeur prévue de 2,5%. Les limites habituelles comprennent donc un intervalle de confiance bilatéral de 100% - (2,3% + 3,5%) = 94,2% au lieu d'un intervalle de confiance de 95%.
La réduction de la couverture nominale de 95% à 77,7% pour l'intervalle lognormal est terrible. La réduction à 94,2% pour l'intervalle habituel n'est pas mal du tout et peut être attribuée à l'effet de l'asymétrie (des données brutes, pas de leurs logarithmes).
Nous devons conclure que de nouvelles analyses de la moyenne ne doivent pas supposer une lognormalité.
Faites attention! Certaines procédures (telles que les limites de prédiction) seront plus sensibles à l'asymétrie que ces limites de confiance pour la moyenne, il faudra donc peut-être tenir compte de leur distribution asymétrique. Cependant, il semble peu probable que les procédures lognormales fonctionnent bien avec ces données pour pratiquement n'importe quelle analyse prévue.
la source
abline()
au lieu deqqline()
(ce qui produit une ligne différente) dans le premier exemple?trial()
fonction n'utilise pas ses arguments.trial
:trial <- function(y) { x <- sample(y, length(y), TRUE); cbind(ci(x), ci.u(x)) }
. Ensuite , émettre juste une commande,sim <- sapply(1:5000, function(i) trial(x))
. Vous voudrez peut-être explorer les histogrammes des six rangées d’sim
après.