Supposons que j'ai une expérience avec deux ou plusieurs facteurs. Une ANOVA globale est construite, puis nous effectuons un suivi avec deux ou plusieurs ensembles de tests post hoc , par exemple des comparaisons multiples. Ma question est de savoir quelle taille --- et combien --- de familles doivent être utilisées comme base pour les ajustements de multiplicité de ces tests post hoc .
Un exemple est l'ensemble de données warp-breaks du livre de Tukey sur EDA. Il y a deux facteurs: wool
(à deux niveaux) et tension
(à trois niveaux). La table ANOVA est:
Source Df Sum Sq Mean Sq F value Pr(>F)
wool 1 450.7 450.67 3.7653 0.0582130
tension 2 2034.3 1017.13 8.4980 0.0006926
wool:tension 2 1002.8 501.39 4.1891 0.0210442
Residuals 48 5745.1 119.69
De toute évidence, l'interaction est nécessaire dans le modèle. Nous décidons donc de faire des comparaisons des niveaux de chaque facteur, en maintenant l'autre facteur fixe. Les résultats sont ci-dessous, avec quelques annotations auxquelles il sera fait référence plus loin:
*** Pairwise comparisons of tension for each wool ***
*** All combined: Family T ***
wool = A: *** Family T|A ***
contrast estimate SE df t.ratio
L - M 20.5555556 5.157299 48 3.986
L - H 20.0000000 5.157299 48 3.878
M - H -0.5555556 5.157299 48 -0.108
wool = B: *** Family T|B ***
contrast estimate SE df t.ratio
L - M -0.5555556 5.157299 48 -0.108
L - H 9.4444444 5.157299 48 1.831
M - H 10.0000000 5.157299 48 1.939
*** Comparison of wool for each tension ***
*** All combined: Family W ***
tension = L: *** Family W|L ***
contrast estimate SE df t.ratio
A - B 16.333333 5.157299 48 3.167
tension = M: *** Family W|M ***
contrast estimate SE df t.ratio
A - B -4.777778 5.157299 48 -0.926
tension = H: *** Family W|H ***
contrast estimate SE df t.ratio
A - B 5.777778 5.157299 48 1.120
Je pense qu'il existe différentes pratiques, et je me demande quelles sont les plus courantes, et quels arguments les gens pourraient faire pour ou contre chaque approche. Dans le calcul des valeurs de ajustées , devrions-nous faire des ajustements de multiplicité pour ...
- chacune des cinq plus petites familles (T | A, T | B, ..., W | H) séparément? (Remarque - les 3 dernières familles n'ont qu'un seul test, il n'y aurait donc pas d'ajustement de la multiplicité pour celles-ci)
- chacune des grandes familles (T, avec 6 tests et W, avec 3 tests) séparément?
- tous les tests considérés comme une grande famille?
Je m'intéresse à la fois à ce que les gens font habituellement (même s'ils n'y ont pas beaucoup réfléchi) et pourquoi (s'ils l'ont). Deux choses que je pourrais mentionner sont:
- Si nous avions fait une expérience un peu plus petite où tous les tests sont moins puissants, il est possible que l'interaction n'ait pas été significative, conduisant à un nombre beaucoup plus réduit de comparaisons post hoc de moyennes marginales uniquement. De plus, les moyennes marginales pourraient bien avoir des SE plus petites que les moyennes cellulaires dans la plus grande expérience. Si, en outre, l'ajustement de la multiplicité est moins conservateur, nous pourrions avoir des résultats plus «significatifs» avec moins de données que nous n'en aurions avec plus de données.
Intéressé de voir ce que les gens ont à dire ...
la source
lsmeans
? C'était beaucoup de travail pour cette question!