J'ai analysé une expérience avec une mesure répétée de l'ANOVA. L'ANOVA est un 3x2x2x2x3 avec 2 facteurs inter-sujets et 3 à l'intérieur (N = 189). Le taux d'erreur est la variable dépendante. La distribution des taux d'erreur a un biais de 3,64 et un kurtosis de 15,75. Le biais et le kurtosis sont le résultat de 90% du taux d'erreur signifie 0. La lecture de certains des fils de discussion précédents sur les tests de normalité ici m'a un peu confus. Je pensais que si vous aviez des données qui n'étaient pas normalement distribuées, il était dans votre intérêt de les transformer si possible, mais il semble que beaucoup de gens pensent que l'analyse de données non normales avec une ANOVA ou un test T est acceptable. Puis-je faire confiance aux résultats de l'ANOVA?
(Pour info, dans le futur j'ai l'intention d'analyser ce type de données en R avec des modèles mixtes avec une distribution binomiale)
Réponses:
Comme d'autres tests paramétriques, l'analyse de la variance suppose que les données correspondent à la distribution normale. Si votre variable de mesure n'est pas distribuée normalement, vous augmentez vos chances d'obtenir un résultat faussement positif si vous analysez les données avec un anova ou un autre test qui suppose la normalité. Heureusement, une anova n'est pas très sensible aux écarts modérés de la normalité; des études de simulation, utilisant une variété de distributions non normales, ont montré que le taux de faux positifs n'est pas très affecté par cette violation de l'hypothèse (Glass et al.1972, Harwell et al.1992, Lix et al.1996). En effet, lorsque vous prenez un grand nombre d'échantillons aléatoires dans une population, les moyennes de ces échantillons sont distribuées approximativement normalement même lorsque la population n'est pas normale.
Il est possible de tester l'adéquation d'un ensemble de données à la distribution normale. Je ne suggère pas que vous le fassiez, car de nombreux ensembles de données qui sont significativement non normaux seraient parfaitement appropriés pour un anova.
Au lieu de cela, si vous avez un ensemble de données suffisamment grand, je vous suggère de simplement regarder l'histogramme de fréquence. Si cela semble plus ou moins normal, allez-y et effectuez une anova. Si cela ressemble à une distribution normale qui a été poussée d'un côté, comme les données de sulfate ci-dessus, vous devriez essayer différentes transformations de données et voir si l'une d'entre elles rend l'histogramme plus normal. Si cela ne fonctionne pas et que les données semblent toujours très anormales, il est probablement toujours correct d'analyser les données à l'aide d'un anova. Cependant, vous souhaiterez peut-être l'analyser à l'aide d'un test non paramétrique. Presque tous les tests statistiques paramétriques ont un substitut non paramétrique, tel que le test de Kruskal-Wallis au lieu d'un anova unidirectionnel, le test de rang signé Wilcoxon au lieu d'un test t apparié et la corrélation de rang Spearman au lieu de la régression linéaire. Ces tests non paramétriques ne supposent pas que les données correspondent à la distribution normale. Ils supposent cependant que les données de différents groupes ont la même distribution les unes que les autres; si différents groupes ont des distributions de formes différentes (par exemple, l'un est asymétrique vers la gauche, un autre est asymétrique vers la droite), un test non paramétrique peut ne pas être meilleur qu'un test paramétrique.
Les références
la source
En ce qui concerne spécifiquement les taux d'erreur en tant que DV, Dixon (2008) démontre de manière très convaincante que les tests d'hypothèse nulle via ANOVA peuvent entraîner à la fois une augmentation des taux de fausses alarmes (effets d'appel "significatifs" quand ils ne le sont pas) et une augmentation des taux de ratés (effets réels manquants). Il montre également que la modélisation à effets mixtes, spécifiant l'erreur à distribution binomiale, est l'approche la plus appropriée pour analyser les données de taux.
la source
Vous ne pouvez pas faire confiance à votre ANOVA avec autant de biais et un grand nombre de 0. Une méthode plus appropriée serait d'utiliser le nombre d'erreurs comme votre DV (transformant ainsi votre DV en données de comptage) et de faire une analyse de Poisson. Cette approche nécessiterait l'utilisation d'une analyse des effets mixtes et la spécification de la famille de distribution d'erreur comme Poisson. L'article de Dixon (2008) * mentionné par Mike Lawrence utilise une analyse des effets mixtes dans R mais avec des résultats binomiaux. Je suis complètement passé à faire R pour la plupart de mes analyses de mesures répétées parce que beaucoup de mes variables de résultats sont binomiales. Le package R approprié est
lme4
.la source
Juan a offert beaucoup, bien que je fasse écho aux autres et répète que pour une meilleure précision, les variables elles-mêmes peuvent être non normales tant que leurs résidus ne le sont pas. De plus, une réponse simplifiée et légèrement plus structurée (via un organigramme annoté) est disponible sur yellowbrickstats.com .
la source
Les effets de plafond sont le problème ici. Un test non paramétrique est votre pari le plus sûr, bien que les ANOVA soient robustes à cette violation de la normalité si n est grand. Généralement, les gens utilisent simplement un histogramme pour tester cela, mais si le problème concerne les résidus, il pourrait être plus avancé que cela. Gardez également à l'esprit COMMENT cela affecte vos résultats (pas seulement cela). Pallant (2007) dirait probablement que cela augmente vos chances d'erreur de type un, donc si vous réduisez votre alpha critique, vous atténuez cela.
la source