Ce n'est pas une question strictement statistique - je peux lire tous les manuels sur les hypothèses ANOVA - j'essaie de comprendre comment les analystes qui travaillent réellement traitent des données qui ne répondent pas tout à fait aux hypothèses. J'ai parcouru beaucoup de questions sur ce site à la recherche de réponses et je continue à trouver des messages sur le moment de ne pas utiliser ANOVA (dans un contexte mathématique abstrait et idéalisé) ou sur la façon de faire certaines des choses que je décris ci-dessous dans R. I j'essaie vraiment de comprendre quelles décisions les gens prennent réellement et pourquoi.
J'exécute une analyse sur des données groupées d'arbres (arbres réels, pas d'arbres statistiques) en quatre groupes. J'ai des données pour environ 35 attributs pour chaque arbre et je passe en revue chaque attribut pour déterminer si les groupes diffèrent considérablement sur cet attribut. Cependant, dans quelques cas, les hypothèses de l'ANOVA sont légèrement violées car les variances ne sont pas égales (selon un test de Levene, en utilisant alpha = 0,05).
Selon moi, mes options sont les suivantes: 1. Transformer les données en puissance et voir si cela modifie le p-val de Levene. 2. Utilisez un test non paramétrique comme un Wilcoxon (si oui, lequel?). 3. Faites une sorte de correction du résultat ANOVA, comme un Bonferroni (je ne suis pas vraiment sûr si quelque chose comme ça existe?). J'ai essayé les deux premières options et obtenu des résultats légèrement différents - dans certains cas, une approche est importante et l'autre ne l'est pas. J'ai peur de tomber dans le piège de pêche de la valeur p, et je cherche des conseils qui m'aideront à justifier l'approche à utiliser.
J'ai également lu des choses qui suggèrent que l'hétéroscédasticité n'est pas vraiment un gros problème pour l'ANOVA à moins que les moyennes et les variances ne soient corrélées (c'est-à-dire qu'elles augmentent toutes les deux ensemble), donc je peux peut-être simplement ignorer le résultat de Levene à moins que je ne voie un modèle comme ça? Si oui, existe-t-il un test pour cela?
Enfin, je dois ajouter que je fais cette analyse pour la publication dans une revue à comité de lecture, donc quelle que soit l'approche sur laquelle je m'arrête, il faut passer avec les critiques. Donc, si quelqu'un peut fournir des liens vers des exemples similaires publiés, ce serait fantastique.
la source
R
, il peut être avantageux de lire ma réponse ici: Alternatives à l'ANOVA unidirectionnelle pour les données hétéroscédastiques , qui traite de certains de ces problèmes.Réponses:
Cela dépend de mes besoins, quelles hypothèses sont violées, de quelle manière, à quel point, à quel point cela affecte l'inférence, et parfois de la taille de l'échantillon.
1) Si les tailles d'échantillon sont égales, vous n'avez pas beaucoup de problème. L'ANOVA est assez (de niveau) robuste à différentes variances si les n sont égaux.
2) tester l' égalité de variance avant de décider de supposer qu'elle est recommandée par un certain nombre d'études. Si vous avez le moindre doute sur le fait qu'ils seront presque égaux, il est préférable de simplement supposer qu'ils sont inégaux.
Quelques références:
Zimmerman, DW (2004),
"Une note sur les tests préliminaires d'égalité des variances."
Br. J. Math. Stat. Psychol. , Mai ; 57 (Pt 1): 173-81.
http://www.ncbi.nlm.nih.gov/pubmed/15171807
Henrik donne trois références ici
3) C'est la taille de l'effet qui importe, plutôt que de savoir si votre échantillon est suffisamment grand pour vous dire qu'il est significativement différent. Ainsi, dans les grands échantillons, une petite différence de variance apparaîtra comme très significative par le test de Levene, mais n'aura essentiellement aucune conséquence dans son impact. Si les échantillons sont grands et que la taille de l'effet - le rapport des variances ou les différences de variances - est assez proche de ce qu'ils devraient être, alors la valeur de p est sans conséquence. (D'un autre côté, dans de petits échantillons, une belle grande valeur de p est de peu de confort. De toute façon, le test ne répond pas à la bonne question.)
Notez qu'il y a un ajustement de type Welch-Satterthwaite à l'estimation de l'erreur standard résiduelle et du df dans l'ANOVA, tout comme il y a dans les tests t à deux échantillons.
Si vous êtes intéressé par des alternatives de changement de lieu, vous supposez toujours un écart constant. Si vous êtes intéressé par des alternatives beaucoup plus générales, vous pourriez peut-être y penser; l'échantillon k équivalent à un test de Wilcoxon est un test de Kruskal-Wallis.
Voir ma suggestion ci-dessus d'envisager Welch-Satterthwaite, c'est une «sorte de correction».
(Alternativement, vous pouvez convertir votre ANOVA en un ensemble de tests t de type Welch par paire, auquel cas vous voudrez probablement regarder un Bonferroni ou quelque chose de similaire)
Il faudrait citer quelque chose comme ça. Ayant examiné un certain nombre de situations avec des tests t, je ne pense pas que ce soit clairement vrai, alors j'aimerais voir pourquoi ils le pensent; peut-être que la situation est limitée d'une certaine manière. Ce serait bien si c'était le cas, car des modèles linéaires souvent généralisés peuvent aider dans cette situation.
Il est très difficile de prédire ce qui pourrait satisfaire vos critiques. La plupart d'entre nous ne travaillent pas avec des arbres.
la source
Il n'est en fait pas très difficile de gérer l'hétéroscédasticité dans des modèles linéaires simples (par exemple, des modèles de type ANOVA unidirectionnels ou bidirectionnels).
Robustesse de l'ANOVA
Premièrement, comme d'autres l'ont noté, l'ANOVA est incroyablement robuste aux écarts par rapport à l'hypothèse de variances égales, surtout si vous avez des données approximativement équilibrées (nombre égal d'observations dans chaque groupe). Les tests préliminaires sur des variances égales, en revanche, ne le sont pas (bien que le test de Levene soit bien meilleur que le test F communément enseigné dans les manuels). Comme l'a dit George Box:
Même si l'ANOVA est très robuste, car il est très facile de prendre en compte l'hétéroscédaticité, il n'y a pas de raison de ne pas le faire.
Tests non paramétriques
Si les différences de moyens vous intéressent vraiment , les tests non paramétriques (par exemple, le test de Kruskal – Wallis) ne sont vraiment d'aucune utilité. Ils testent les différences entre les groupes, mais ils ne testent pas en général les différences de moyens.
Exemples de données
Générons un exemple simple de données où l'on aimerait utiliser l'ANOVA, mais où l'hypothèse de variances égales n'est pas vraie.
Nous avons trois groupes, avec des différences (claires) dans les moyennes et les variances:
ANOVA
Sans surprise, une ANOVA normale gère très bien cela:
Alors, quels groupes diffèrent? Utilisons la méthode HSD de Tukey:
Avec une valeur P de 0,26, nous ne pouvons prétendre à aucune différence (dans les moyennes) entre le groupe A et B. Et même si nous ne tenions pas compte du fait que nous avons fait trois comparaisons, nous n'obtiendrions pas un P faible - valeur ( P = 0,12):
Pourquoi donc? Sur la base de l'intrigue, il y a une différence assez claire. La raison en est que l'ANOVA suppose des variances égales dans chaque groupe et estime un écart type commun de 2,77 (indiqué comme `` erreur standard résiduelle '' dans le
summary.lm
tableau, ou vous pouvez l'obtenir en prenant la racine carrée du carré moyen résiduel (7,66) dans le tableau ANOVA).Mais le groupe A a un écart-type (population) de 1, et cette surestimation de 2,77 rend (inutilement) difficile l'obtention de résultats statistiquement significatifs, c'est-à-dire que nous avons un test avec une puissance (trop) faible.
'ANOVA' avec des variances inégales
Alors, comment adapter un bon modèle, celui qui prend en compte les différences de variances? C'est facile dans R:
Donc, si vous voulez exécuter une 'ANOVA' unidirectionnelle simple dans R sans supposer des variances égales, utilisez cette fonction. Il s'agit essentiellement d'une extension du (Welch)
t.test()
pour deux échantillons avec des variances inégales.Malheureusement, cela ne fonctionne pas avec
TukeyHSD()
(ou la plupart des autres fonctions que vous utilisez sur lesaov
objets), donc même si nous sommes presque sûrs qu'il existe des différences de groupe, nous ne savons pas où ils se trouvent.Modélisation de l'hétéroscédasticité
La meilleure solution consiste à modéliser explicitement les variances. Et c'est très facile dans R:
Des différences encore importantes, bien sûr. Mais maintenant, les différences entre les groupes A et B sont également devenues statistiquement significatives ( P = 0,025):
Donc, utiliser un modèle approprié aide! Notez également que nous obtenons des estimations des écarts-types (relatifs). L'écart type estimé pour le groupe A se trouve au bas des résultats, 1,02. L'écart type estimé du groupe B est de 2,44 fois cela, ou 2,48, et l'écart type estimé du groupe C est de même 3,97 (tapez
intervals(mod.gls)
pour obtenir des intervalles de confiance pour les écarts types relatifs des groupes B et C).Correction pour plusieurs tests
Cependant, nous devons vraiment corriger les tests multiples. C'est facile en utilisant la bibliothèque 'multcomp'. Malheureusement, il n'a pas de support intégré pour les objets 'gls', nous devrons donc d'abord ajouter quelques fonctions d'assistance:
Maintenant, mettons-nous au travail:
Différence toujours statistiquement significative entre le groupe A et le groupe B! ☺ Et nous pouvons même obtenir (simultanément) des intervalles de confiance pour les différences entre les moyennes de groupe:
En utilisant un modèle approximativement (ici exactement) correct, nous pouvons faire confiance à ces résultats!
Notez que pour cet exemple simple, les données du groupe C n'ajoutent pas vraiment d'informations sur les différences entre les groupes A et B, car nous modélisons à la fois des moyennes distinctes et des écarts-types pour chaque groupe. Nous aurions pu simplement utiliser des tests t par paire corrigés pour plusieurs comparaisons:
Cependant, pour les modèles plus compliqués, par exemple les modèles bidirectionnels ou les modèles linéaires avec de nombreux prédicteurs, l'utilisation des GLS (moindres carrés généralisés) et la modélisation explicite des fonctions de variance est la meilleure solution.
Et la fonction de variance ne doit pas simplement être une constante différente dans chaque groupe; nous pouvons lui imposer une structure. Par exemple, nous pouvons modéliser la variance comme une puissance de la moyenne de chaque groupe (et donc avoir seulement besoin d'estimer un paramètre, l'exposant), ou peut-être comme le logarithme d'un des prédicteurs du modèle. Tout cela est très simple avec GLS (et
gls()
en R).Les moindres carrés généralisés sont à mon humble avis une technique de modélisation statistique très sous-utilisée. Au lieu de vous soucier des écarts par rapport aux hypothèses du modèle, modélisez ces écarts!
la source
Il peut en effet y avoir une certaine transformation de vos données qui produit une distribution normale acceptable. Bien sûr, maintenant votre inférence concerne les données transformées, pas les données non transformées.
En supposant que vous parlez d'une ANOVA unidirectionnelle, le test de Kruskal-Wallis est un analogue non paramétrique approprié à l'ANOVA unidirectionnelle. Le test de Dunn (pas le test de somme des rangs des variétés de jardin) est peut-être le test non paramétrique le plus courant approprié pour les comparaisons multiples par paires post hoc , bien qu'il existe d'autres tests tels que le test de Conover-Iman (strictement plus puissant que le test de Dunn après rejet) du kruskal-Wallis) et le test de Dwass-Steele-Crichtlow-Fligner.
L'ANOVA est basée sur un ratio de variances intra-groupe et inter-groupe. Je ne suis pas tout à fait sûr de ce que vous entendez par hétéroscédasticité dans ce contexte, mais si vous entendez des variances inégales entre les groupes, cela me semblerait fondamentalement briser la logique de l'hypothèse nulle du test.
Une simple requête Google Scholar pour «test de Dunn» avec un terme général de votre discipline devrait renvoyer de nombreux exemples publiés.
Les références
Conover, WJ et Iman, RL (1979). Sur les procédures de comparaisons multiples . Rapport technique LA-7677-MS, Los Alamos Scientific Laboratory.
Crichtlow, DE et Fligner, MA (1991). Sur les comparaisons multiples sans distribution dans l'analyse unidirectionnelle de la variance . Communications in Statistics — Theory and Methods , 20 (1): 127.
Dunn, JO (1964). Comparaisons multiples utilisant des sommes de classement . Technometrics , 6 (3): 241–252.
la source
Il me semble que vous faites le jeu de jambes et que vous faites de votre mieux, mais que vous craignez que vos efforts ne soient pas assez bons pour faire passer votre article devant les examinateurs. C'est vraiment un problème du monde réel. Je pense que tous les chercheurs éprouvent des difficultés avec des analyses qui semblent de temps en temps ou même franchement franchir les hypothèses. Après tout, il y a des millions d'articles évaluant par exemple les effets du traitement dans 3 petits groupes de souris avec quelque chose comme 6 à 7 souris dans chaque groupe. Comment savoir si les hypothèses d'Anova sont satisfaites dans un tel article!
J'ai passé en revue un grand nombre d'articles, en particulier dans le domaine de la physiopathologie cardiovasculaire et, en fait, je ne me sens jamais sûr à 100% si je peux faire confiance aux données ou non dans un article que j'ai lu. Mais pour moi en tant que critique, j'ai tendance à penser que des problèmes peuvent survenir à tellement de niveaux dans la science qu'il est probablement inutile de creuser trop profondément dans les statistiques - après tout, l'ensemble de données pourrait être fabriqué et je ne le ferais jamais dans un million d'années être en mesure de dire. En conséquence, il y aura toujours un élément de confiance dans ce domaine de travail, dont les chercheurs ne doivent jamais abuser.
La suggestion la plus concrète que je donnerais est que vous devez tout réfléchir très attentivement avant de soumettre et vous assurer que vous serez en mesure de répondre honnêtement à toutes les questions posées par les examinateurs. Tant que vous avez fait de votre mieux, vos intentions sont honnêtes et vous dormez bien la nuit, je pense que vous devriez aller bien.
la source