Vérification des hypothèses ANOVA

16

Il y a quelques mois, j'ai posté une question sur les tests d'homoscédasticité dans R sur SO, et Ian Fellows a répondu à cela (je vais paraphraser sa réponse de manière très lâche):

Les tests d'homoscédasticité ne sont pas un bon outil pour tester la qualité de l'ajustement de votre modèle. Avec de petits échantillons, vous n'avez pas assez de puissance pour détecter les écarts d'homoscédasticité, tandis qu'avec de gros échantillons, vous avez "beaucoup de puissance", donc vous êtes plus susceptible de détecter les écarts d'égalité, même insignifiants.

Sa grande réponse est venue comme une gifle sur mon visage. J'ai utilisé pour vérifier les hypothèses de normalité et d'homoscédasticité chaque fois que je courais ANOVA.

Quelle est, selon vous, la meilleure pratique lors de la vérification des hypothèses ANOVA?

aL3xa
la source

Réponses:

11

Dans les paramètres appliqués, il est généralement plus important de savoir si une violation des hypothèses est problématique pour l'inférence.

Les tests d'hypothèse basés sur des tests de signification sont rarement intéressants pour les grands échantillons, car la plupart des tests inférentiels sont robustes à de légères violations des hypothèses.

L'une des caractéristiques intéressantes des évaluations graphiques des hypothèses est qu'elles concentrent l'attention sur le degré de violation et non sur la signification statistique de toute violation.

Cependant, il est également possible de se concentrer sur des résumés numériques de vos données qui quantifient le degré de violation des hypothèses et non la signification statistique (par exemple, les valeurs d'asymétrie, les valeurs de kurtosis, le rapport des variances du plus grand au plus petit groupe, etc.). Vous pouvez également obtenir des erreurs standard ou des intervalles de confiance sur ces valeurs, qui deviendront plus petites avec des échantillons plus grands. Cette perspective est conforme à l'idée générale selon laquelle la signification statistique n'est pas équivalente à l'importance pratique.

Jeromy Anglim
la source
1
+1 pour la grande réponse qui résume tout. Comment appliquer les procédures numériques mentionnées est joliment et de manière applicable décrit dans Tabachnik et Fidell's Using Multivariate Statistics (pour SPSS et SAS): amazon.com/Using-Multivariate-Statistics-Barbara-Tabachnick/dp/… (Mais voir les erratas sur le page web accompagnée)
Henrik
Eh bien, je pense que la plupart du temps les résumés comme l'asymétrie et le kurtosis ont peu de valeur, leur variation d'échantillonnage est juste trop grande. On pourrait envisager de les remplacer par L_skewness et L-kurtosis, cependant.
kjetil b halvorsen
@kjetilbhalvorsen Je suppose que cela dépend du type de taille d'échantillon avec lequel vous travaillez généralement. D'après mon expérience, les graphiques et les statistiques d'asymétrie sont très utiles pour comprendre la distribution des données.
Jeromy Anglim
@ Jeromy Anglim: OK. Alors je suppose que vous avez généralement de très gros échantillons! Avez-vous essayé d'amorcer vos coefficients d'asymétrie / kurtosis?
kjetil b halvorsen
9

Quelques graphiques seront généralement beaucoup plus éclairants que la valeur p d'un test de normalité ou d'homoscédasticité. Tracer les variables dépendantes observées par rapport aux variables indépendantes. Tracer les observations par rapport aux ajustements. Tracer les résidus par rapport à des variables indépendantes. Enquêter sur tout ce qui semble étrange sur ces parcelles. Si quelque chose ne semble pas étrange, je ne m'inquiéterais pas d'un test significatif d'une hypothèse.

S. Kolassa - Rétablir Monica
la source
Bon conseil la plupart du temps, mais qu'en est-il du cas des grands ensembles de données, où vous ne pouvez pas parcourir toutes les données manuellement?
dsimcha
1
n1n2<ασ2
2
@dsimcha re grands ensembles de données: dépend de ce que vous entendez par "grand". Beaucoup d'observations? Utilisez de bons graphiques (boxplot, dotplots jittered, sunflowerplots). De nombreuses variables indépendantes? Oui, vous avez un point là-bas ... Mais si vous avez tellement de IV que vous ne pouvez pas tracer le DV contre chaque IV, je remettrais en question l'utilisation d'une ANOVA - il semble que cela puisse être difficile à interpréter dans n'importe quel Cas. Certaines approches intelligentes d'apprentissage automatique peuvent être meilleures (Brian D. Ripley: "Pour paraphraser de manière provocante, 'l'apprentissage automatique est une statistique sans vérification des modèles et des hypothèses'.")
S. Kolassa - Reinstate Monica
Bon commentaire, +1. Même si cette question spécifique concerne l'ANOVA, je pensais de manière plus générale à la question des parcelles par rapport aux tests lorsque j'ai écrit ma réponse.
dsimcha
4

Voici quelques très bons guides Web pour vérifier les hypothèses de l'ANOVA et que faire en cas d'échec. En voici un. C'en est un autre.

Essentiellement, votre œil est le meilleur juge, alors faites une analyse exploratoire des données . Cela signifie tracer les données - les histogrammes et les diagrammes en boîte sont un bon moyen d'évaluer la normalité et l'homoscédascité. Et rappelez-vous que l'ANOVA résiste aux violations mineures de celles-ci.

Thylacoleo
la source
4

Les tracés QQ sont de très bons moyens de détecter la non-normalité.

Pour l'homoscédasticité, essayez le test de Levene ou un test de Brown-Forsythe. Les deux sont similaires, bien que BF soit un peu plus robuste. Ils sont moins sensibles à la non-normalité que le test de Bartlett, mais même quand même, je les ai trouvés pas les plus fiables avec de petits échantillons.

Graphique QQ

Test de Brown-Forsythe

Test de Levene

Christopher Aden
la source
Les parcelles de distribution relative (ou instance, par rapport à la distribution normale) pourraient être un bon remplacement, car leur interprétation pourrait être plus claire pour les débutants.
kjetil b halvorsen
3

Je suis d'accord avec d'autres pour dire que les tests de signification des hypothèses posent problème.

J'aime traiter ce problème en faisant un seul tracé qui expose toutes les hypothèses du modèle nécessaires pour avoir une erreur de type I précise et une erreur de type II faible (puissance élevée). Pour le cas de l'ANOVA avec 2 groupes (test t à deux échantillons), ce graphique est l'inverse normal de la fonction de distribution cumulative empirique (ECDF) stratifiée par groupe (voir le commentaire du graphique QQ dans un article précédent). Pour que le test t fonctionne bien, les deux courbes doivent être des droites parallèles. Pour lek-exemple de problème d'ANOVA en général vous auriez k lignes droites parallèles.

Les méthodes semi-paramétriques (rang) telles que les tests de Wilcoxon et Kruskal-Wallis font beaucoup moins d'hypothèses. Le logit de l'ECDF doit être parallèle pour que les tests de Wilcoxon-Kruskal-Wallis aient une puissance maximale (une erreur de type I n'est jamais un problème pour eux). La linéarité n'est pas requise. Les tests de classement font des hypothèses sur la façon dont les distributions de différents groupes sont liées à d'autres, mais ne font pas d'hypothèses sur la forme d'une distribution.

Frank Harrell
la source