Il y a quelques mois, j'ai posté une question sur les tests d'homoscédasticité dans R sur SO, et Ian Fellows a répondu à cela (je vais paraphraser sa réponse de manière très lâche):
Les tests d'homoscédasticité ne sont pas un bon outil pour tester la qualité de l'ajustement de votre modèle. Avec de petits échantillons, vous n'avez pas assez de puissance pour détecter les écarts d'homoscédasticité, tandis qu'avec de gros échantillons, vous avez "beaucoup de puissance", donc vous êtes plus susceptible de détecter les écarts d'égalité, même insignifiants.
Sa grande réponse est venue comme une gifle sur mon visage. J'ai utilisé pour vérifier les hypothèses de normalité et d'homoscédasticité chaque fois que je courais ANOVA.
Quelle est, selon vous, la meilleure pratique lors de la vérification des hypothèses ANOVA?
Quelques graphiques seront généralement beaucoup plus éclairants que la valeur p d'un test de normalité ou d'homoscédasticité. Tracer les variables dépendantes observées par rapport aux variables indépendantes. Tracer les observations par rapport aux ajustements. Tracer les résidus par rapport à des variables indépendantes. Enquêter sur tout ce qui semble étrange sur ces parcelles. Si quelque chose ne semble pas étrange, je ne m'inquiéterais pas d'un test significatif d'une hypothèse.
la source
Voici quelques très bons guides Web pour vérifier les hypothèses de l'ANOVA et que faire en cas d'échec. En voici un. C'en est un autre.
Essentiellement, votre œil est le meilleur juge, alors faites une analyse exploratoire des données . Cela signifie tracer les données - les histogrammes et les diagrammes en boîte sont un bon moyen d'évaluer la normalité et l'homoscédascité. Et rappelez-vous que l'ANOVA résiste aux violations mineures de celles-ci.
la source
Les tracés QQ sont de très bons moyens de détecter la non-normalité.
Pour l'homoscédasticité, essayez le test de Levene ou un test de Brown-Forsythe. Les deux sont similaires, bien que BF soit un peu plus robuste. Ils sont moins sensibles à la non-normalité que le test de Bartlett, mais même quand même, je les ai trouvés pas les plus fiables avec de petits échantillons.
Graphique QQ
Test de Brown-Forsythe
Test de Levene
la source
Je suis d'accord avec d'autres pour dire que les tests de signification des hypothèses posent problème.
J'aime traiter ce problème en faisant un seul tracé qui expose toutes les hypothèses du modèle nécessaires pour avoir une erreur de type I précise et une erreur de type II faible (puissance élevée). Pour le cas de l'ANOVA avec 2 groupes (test t à deux échantillons), ce graphique est l'inverse normal de la fonction de distribution cumulative empirique (ECDF) stratifiée par groupe (voir le commentaire du graphique QQ dans un article précédent). Pour que le test t fonctionne bien, les deux courbes doivent être des droites parallèles. Pour lek -exemple de problème d'ANOVA en général vous auriez k lignes droites parallèles.
Les méthodes semi-paramétriques (rang) telles que les tests de Wilcoxon et Kruskal-Wallis font beaucoup moins d'hypothèses. Le logit de l'ECDF doit être parallèle pour que les tests de Wilcoxon-Kruskal-Wallis aient une puissance maximale (une erreur de type I n'est jamais un problème pour eux). La linéarité n'est pas requise. Les tests de classement font des hypothèses sur la façon dont les distributions de différents groupes sont liées à d'autres, mais ne font pas d'hypothèses sur la forme d'une distribution.
la source