ANOVA: test d'hypothèse de normalité pour de nombreux groupes avec peu d'échantillons par groupe

Supposons la situation suivante:

nous avons un grand nombre (par exemple 20) avec un petit groupe (par exemple n = 3). J'ai remarqué que si je génère des valeurs à partir de la distribution uniforme, les résidus sembleront approximativement normaux même si la distribution d'erreur est uniforme. Le code R suivant illustre ce comportement:

n.group = 200
n.per.group = 3

x <- runif(n.group * n.per.group)
gr <- as.factor(rep(1:n.group, each = n.per.group))
means <- tapply(x, gr, mean)
x.res <- x - means[gr]
hist(x.res)

Si je regarde le résidu d'un échantillon dans un groupe de trois, la raison du comportement est claire:

$r_1 = x_1 - \text{mean}(x1, x2, x3) = x1 - \frac{x_1+x_2+x_3}{3}=\frac{2}{3}x_1 - x_2 - x_3.$

entrez la description de l'image ici

$r_1$

Supposons maintenant que j'ai la même situation avec des données réelles au lieu de données simulées. Je veux évaluer si les hypothèses de l'ANOVA concernant la normalité sont valables. La plupart des procédures recommandées recommandent une inspection visuelle des résidus (par exemple, QQ-Plot) ou un test de normalité sur les résidus. Comme mon exemple ci-dessus, ce n'est pas vraiment optimal pour les petits groupes.

Existe-t-il une meilleure alternative lorsque j'ai plusieurs groupes de petites tailles?

anova normal-distribution small-sample Erik
la source

Pour plusieurs raisons, il semble que ce ne soit pas un problème. Tout d'abord, vos résidus sembleront uniformes: regardez un histogramme pour un grand nombre de groupes pour le voir. Deuxièmement, la normalité des résidus a peu d'importance pour la plupart des analyses; ce qui importe, c'est la normalité approximative des distributions d'échantillonnage. Quel aspect spécial de votre application vous fait donc supposer qu'il existe un vrai problème?

whuber

a) mes résidus n'apparaîtront pas uniformes. J'ai testé cela pour un certain nombre de groupes (pas d'échantillons par groupe) de 20 à 20000. J'ai joint un exemple à la question; il apparaît comme quelque chose entre uniforme et normal, avec une tendance distincte à la normale. b) Je sais qu'il s'agit de la normalité approximative de la distribution d'échantillonnage. C'est tout le point de la question car les résidus sembleront normaux, mais la distribution d'échantillonnage ne l'est pas. Je ne peux donc pas utiliser les résidus pour tester les propriétés de la distribution d'échantillonnage.

Erik

C'est exact. Mais êtes-vous vraiment intéressé par la distribution des erreurs ou êtes-vous intéressé par la réalisation d'ANOVA? (Je n'essaie pas d'impliquer que la question doit être ignorée - c'est une question fascinante que vous avez soulevée - mais je me demande seulement si vous avez vraiment besoin d'une réponse pour procéder à votre analyse des données.)

whuber

Mais vous pouvez utiliser les mêmes simulations pour étudier la robustesse de l'ANOVA dans votre cas!

kjetil b halvorsen

Un commentaire légèrement tangentiel mais pertinent: en général, l'utilisation d'un test de normalité (ou d'une autre hypothèse de modèle) avant de faire un test d'hypothèse présente (au moins) trois problèmes: 1) Si vous le faites, vous devez tenir compte de plusieurs tests; 2) Rejeter l'hypothèse alternative, par exemple, "pas normal" ne signifie pas que vous pouvez conclure la normalité; 3) Les tests d'hypothèses de modèle ont leurs propres hypothèses de modèle, alors où vous arrêtez-vous?

Martha

$a<b$ $\frac{a+b}2{}$ $\sigma$ $(a,b)$ $\sigma<a$ $\sigma>b$ $\text{SD}<\sigma$ $n>100$

Maintenant, plutôt que de lever les mains de frustration, nous pouvons appliquer la correction de petit nombre pour nos SD dans des conditions normales. (Ha! Il y a une solution à notre misère.)

$\frac{SD(n)}{\mu(n)}\,=\,\sqrt{\frac{2}{n-1}}\,\,\,\frac{\Gamma\left(\frac{n}{2}\right)}{\Gamma\left(\frac{n-1}{2}\right)} \, = \, 1 - \frac{1}{4n} - \frac{7}{32n^2} - \frac{19}{128n^3} + O(n^{-4})$ $E[\mu]$

$n=3$ $\Gamma(\frac{3}{2})=\frac{\sqrt{\pi }}{2}\approx0.8862269255$ $\sigma$

Maintenant, dans le cas où vous présentez, vous avez également plusieurs autres choses en cours. En l'occurrence, la meilleure mesure de l'emplacement d'une distribution uniforme n'est pas la moyenne. Bien que la moyenne de l'échantillon et la médiane de l'échantillon soient des estimateurs non biaisés du point médian, aucun n'est aussi efficace que la moyenne de l'échantillon, c'est-à-dire la moyenne arithmétique du maximum de l'échantillon et du minimum de l'échantillon, qui est l'estimateur sans biais de la variance minimale UMVU estimateur du point médian (ainsi que l'estimation du maximum de vraisemblance).

Passons maintenant à l'essentiel. Si vous utilisez la moyenne des valeurs extrêmes, la variance de la mesure de l'emplacement sera plus petite, à condition que vos données soient vraiment uniformément réparties. Il peut être normalement distribué car une seule queue de valeur extrême pourrait bien être normale. Cependant, avec seulement 3 échantillons, l'écart type devra être corrigé.

Carl
la source

ANOVA: test d'hypothèse de normalité pour de nombreux groupes avec peu d'échantillons par groupe

Réponses: