La page Wikipedia sur ANOVA énumère trois hypothèses , à savoir:
- Indépendance des cas - il s'agit d'une hypothèse du modèle qui simplifie l'analyse statistique.
- Normalité - les distributions des résidus sont normales.
- Égalité (ou "homogénéité") des variances, appelée homoscédasticité ...
Le point d’intérêt ici est la deuxième hypothèse. Plusieurs sources énumèrent l’hypothèse différemment. Certains disent que les données brutes sont normales, d'autres prétendent être des résidus.
Plusieurs questions surgissent:
- la normalité et la distribution normale des résidus sont-elles la même personne (d'après Wikipedia, je dirais que la normalité est une propriété et ne concerne pas directement les résidus (mais peut être une propriété de résidus (texte profondément imbriqué entre crochets, bizarre)))?
- Si non, quelle hypothèse devrait tenir? Un? Tous les deux?
- si l'hypothèse de résidus normalement distribués est la bonne, commettons-nous une grave erreur en ne vérifiant que l'histogramme des valeurs brutes pour la normalité?
anova
residuals
assumptions
normality-assumption
Roman Luštrik
la source
la source
Réponses:
Supposons qu'il s'agit d'un modèle à effets fixes . (Le conseil ne change pas vraiment pour les modèles à effets aléatoires, cela devient un peu plus compliqué.)
Non, la normalité et la distribution normale des résidus ne sont pas les mêmes . Supposons que vous mesuriez le rendement d'une culture avec et sans application d'engrais. Dans les parcelles sans engrais, le rendement variait de 70 à 130. Dans deux parcelles avec engrais, le rendement variait de 470 à 530. La distribution des résultats est fortement non normale: elle est regroupée à deux endroits liés à l'application d'engrais. Supposons en outre que les rendements moyens sont respectivement de 100 et 500. Ensuite, tous les résidus vont de -30 à +30. Ils peuvent (ou ne peuvent pas) être distribués normalement, mais évidemment, il s'agit d'une distribution complètement différente.
La distribution des résidus a son importance , car ils reflètent la partie aléatoire du modèle. Notez également que les valeurs p sont calculées à partir des statistiques F (ou t) et que celles-ci dépendent des résidus, pas des valeurs d'origine.
S'il y a des effets significatifs dans les données (comme dans cet exemple), vous faites peut- être une erreur "grave" . Vous pourriez, par chance, faire la bonne détermination: en regardant les données brutes, vous obtiendrez un mélange de distributions et cela peut sembler normal (ou non). Le fait est que ce que vous cherchez n’est pas pertinent.
Les valeurs résiduelles d'ANOVA ne doivent pas nécessairement être proches de la normale pour s'adapter au modèle. Cependant, la quasi-normalité des résidus est essentielle pour que les valeurs p calculées à partir de la distribution F aient un sens.
la source
L'ANOVA classique unidirectionnelle standard peut être considérée comme une extension du "test T à 2 échantillons" classique à un "test T à n échantillons". Ceci peut être constaté en comparant une ANOVA à une voie avec seulement deux groupes au test t classique à deux échantillons.
Je pense que ce qui vous rend confus, c’est que (selon les hypothèses du modèle), les résidus et les données brutes sont à la fois normalement distribués. Cependant, les données brutes sont constituées de distributions normales avec des moyennes différentes (à moins que tous les effets ne soient exactement les mêmes) mais la même variance. Les résidus, par contre, ont la même distribution normale . Cela vient de la troisième hypothèse d'homoscédasticité.
la source
la source