Comment puis-je calculer l'intervalle de confiance d'une moyenne dans un échantillon non distribué normalement?
Je comprends que les méthodes d'amorçage sont couramment utilisées ici, mais je suis ouvert à d'autres options. Pendant que je recherche une option non paramétrique, si quelqu'un peut me convaincre qu'une solution paramétrique est valide, ce serait bien. La taille de l'échantillon est> 400.
Si quelqu'un pouvait donner un échantillon en R, ce serait très apprécié.
Réponses:
Tout d'abord, je vérifierais si la moyenne est un indice approprié pour la tâche à accomplir. Si vous recherchez "une valeur typique / ou centrale" d'une distribution asymétrique, la moyenne peut vous indiquer une valeur plutôt non représentative. Considérez la distribution log-normale:
La moyenne (ligne rouge) est assez éloignée de la majeure partie des données. La moyenne ajustée à 20% (vert) et la médiane (bleu) sont plus proches de la valeur "typique".
Les résultats dépendent du type de votre distribution "non normale" (un histogramme de vos données réelles serait utile). S'il n'est pas asymétrique, mais a une queue lourde, vos CI seront très larges.
En tout cas, je pense que le bootstrap est en effet une bonne approche, car il peut également vous donner des CI asymétriques. Le
R
packagesimpleboot
est un bon début:... vous donne le résultat suivant:
la source
Avoir la forme analytique de la correction moyenne vous donnerait une idée immédiate de la nécessité de prendre en compte l'asymétrie dans votre problème d'estimation moyenne. D'une certaine manière, c'est un outil de diagnostic de la gravité de la situation. Dans l'exemple de la distribution lognormale donnée par Felix, l'asymétrie normalisée de la distribution de la population est( exp( 1 ) + 2 ) ∗ exp( 1 ) - 1--------√ , ce qui est
kappa = (exp(1)+2)*sqrt( exp(1) - 1) = 6.184877
. La largeur de l'IC (en utilisant l'écart-type de la distribution de la population,s = sqrt( (exp(1)-1)*exp(1) ) = 2.161197
) est2*s*qnorm(0.975)/sqrt(n) = 0.2678999
, tandis que la correction de la moyenne estkappa*s/(6*n) = 0.00222779
(l'écart-type migré vers le numérateur étant donnékappa
l'asymétrie sans échelle, tandis que la formule de Johnson traite le tiers de la population non mise à l'échelle moment central), soit environ 1 / 100e de la largeur de l'IC. Devez-vous déranger? Je dirais non.la source
Essayez une distribution log-normale, calculant:
Vous vous retrouverez avec un intervalle de confiance asymétrique autour de la valeur attendue (qui n'est pas la moyenne des données brutes).
la source