Supposons la situation suivante:
nous avons un grand nombre (par exemple 20) avec un petit groupe (par exemple n = 3). J'ai remarqué que si je génère des valeurs à partir de la distribution uniforme, les résidus sembleront approximativement normaux même si la distribution d'erreur est uniforme. Le code R suivant illustre ce comportement:
n.group = 200
n.per.group = 3
x <- runif(n.group * n.per.group)
gr <- as.factor(rep(1:n.group, each = n.per.group))
means <- tapply(x, gr, mean)
x.res <- x - means[gr]
hist(x.res)
Si je regarde le résidu d'un échantillon dans un groupe de trois, la raison du comportement est claire:
Supposons maintenant que j'ai la même situation avec des données réelles au lieu de données simulées. Je veux évaluer si les hypothèses de l'ANOVA concernant la normalité sont valables. La plupart des procédures recommandées recommandent une inspection visuelle des résidus (par exemple, QQ-Plot) ou un test de normalité sur les résidus. Comme mon exemple ci-dessus, ce n'est pas vraiment optimal pour les petits groupes.
Existe-t-il une meilleure alternative lorsque j'ai plusieurs groupes de petites tailles?
Réponses:
Maintenant, plutôt que de lever les mains de frustration, nous pouvons appliquer la correction de petit nombre pour nos SD dans des conditions normales. (Ha! Il y a une solution à notre misère.)
Maintenant, dans le cas où vous présentez, vous avez également plusieurs autres choses en cours. En l'occurrence, la meilleure mesure de l'emplacement d'une distribution uniforme n'est pas la moyenne. Bien que la moyenne de l'échantillon et la médiane de l'échantillon soient des estimateurs non biaisés du point médian, aucun n'est aussi efficace que la moyenne de l'échantillon, c'est-à-dire la moyenne arithmétique du maximum de l'échantillon et du minimum de l'échantillon, qui est l'estimateur sans biais de la variance minimale UMVU estimateur du point médian (ainsi que l'estimation du maximum de vraisemblance).
Passons maintenant à l'essentiel. Si vous utilisez la moyenne des valeurs extrêmes, la variance de la mesure de l'emplacement sera plus petite, à condition que vos données soient vraiment uniformément réparties. Il peut être normalement distribué car une seule queue de valeur extrême pourrait bien être normale. Cependant, avec seulement 3 échantillons, l'écart type devra être corrigé.
la source