Est-il possible pour l' ANOVA unidirectionnelle (avec groupes ou "niveaux") de signaler une différence significative lorsqu'aucun des tests t par paire ne le fait?
Dans cette réponse, @whuber a écrit:
Il est bien connu qu'un test ANOVA F global peut détecter une différence de moyennes même dans les cas où aucun test t individuel [non ajusté par paire] d'aucune des paires de moyennes ne donnera un résultat significatif.
donc apparemment c'est possible, mais je ne comprends pas comment. Quand cela se produit-il et quelle serait l'intuition derrière un tel cas? Peut-être que quelqu'un peut fournir un simple exemple de jouet d'une telle situation?
Quelques remarques supplémentaires:
L'inverse est clairement possible: l'ANOVA globale peut être non significative tandis que certains des tests t par paire signalent à tort des différences significatives (c'est-à-dire que ce seraient des faux positifs).
Ma question concerne les tests t standard, non ajustés pour les comparaisons multiples. Si des tests ajustés sont utilisés (comme par exemple la procédure HSD de Tukey), il est possible qu'aucun d'entre eux ne se révèle significatif même si l'ANOVA globale l'est. Ceci est couvert ici dans plusieurs questions, par exemple Comment puis-je obtenir une ANOVA globale significative mais pas de différences significatives par paire avec la procédure de Tukey? et interaction ANOVA significative mais comparaisons par paires non significatives .
Mise à jour. Ma question faisait à l'origine référence aux tests t par paires habituels à deux échantillons . Cependant, comme l'a souligné @whuber dans les commentaires, dans le contexte de l'ANOVA, les tests t sont généralement considérés comme des contrastes post hoc utilisant l'estimation de l'ANOVA de la variance intra-groupe, regroupée dans tous les groupes (ce qui n'est pas ce qui se passe dans deux -échantillon t-test). Il y a donc en fait deux versions différentes de ma question, et la réponse à chacune d'elles s'avère positive. Voir ci-dessous.
la source
Réponses:
Remarque: il y avait un problème avec mon exemple d'origine. Je me suis stupidement fait prendre par le recyclage silencieux de R. Mon nouvel exemple est assez similaire à mon ancien. Espérons que tout se passe en ce moment.
Voici un exemple que j'ai fait qui a l'ANOVA significative au niveau de 5% mais aucune des 6 comparaisons par paires n'est significative, même au niveau de 5% .
Voici les données:
Voici l'ANOVA:
Voici les deux exemples de valeurs p du test t (hypothèse de variance égale):
En jouant un peu plus avec les moyennes de groupe ou les points individuels, la différence de signification pourrait être rendue plus frappante (en ce sens que je pourrais réduire la première valeur de p et la plus faible de l'ensemble des six valeurs de p pour le test t plus élevée ).
-
Modifier: voici un exemple supplémentaire généré à l'origine avec du bruit sur une tendance, qui montre à quel point vous pouvez faire mieux si vous déplacez un peu les points:
Le F a une valeur de p inférieure à 3% et aucun des t n'a une valeur de p inférieure à 8%. (Pour un exemple de 3 groupes - mais avec une valeur de p un peu plus grande sur le F - omettez le deuxième groupe)
Et voici un exemple très simple, bien que plus artificiel, avec 3 groupes:
(Dans ce cas, la plus grande variance se situe dans le groupe intermédiaire - mais en raison de la plus grande taille de l'échantillon, l'erreur standard de la moyenne du groupe est encore plus petite)
Tests t de comparaisons multiples
whuber a suggéré que j'examine le cas des comparaisons multiples. Cela s'avère assez intéressant.
Le cas des comparaisons multiples (toutes effectuées au niveau de signification d'origine - c'est-à-dire sans ajustement de l'alpha pour les comparaisons multiples) est un peu plus difficile à réaliser, car jouer avec des variances plus grandes et plus petites ou plus et moins de df dans les différents groupes n'aide pas de la même manière que pour les tests t à deux échantillons ordinaires.
Cependant, nous avons toujours les outils pour manipuler le nombre de groupes et le niveau de signification; si nous choisissons plus de groupes et des niveaux de signification plus petits, il devient à nouveau relativement simple d'identifier les cas. En voici un:
Prenez huit groupes avec . Définissez les valeurs dans les quatre premiers groupes à (2,2,5) et dans les quatre derniers groupes à (3,5,4), et prenez (disons). On a alors un F significatif:α = 0,0025nje= 2 α = 0,0025
Pourtant, la plus petite valeur de p sur les comparaisons par paires n'est pas significative que ce niveau:
la source
Résumé: Je pense que c'est possible, mais très, très peu probable. La différence sera faible, et si cela se produit, c'est parce qu'une hypothèse a été violée (comme l'homoscédasticité de la variance).
Voici un code qui recherche une telle possibilité. Notez qu'il incrémente la graine de 1 chaque fois qu'il s'exécute, de sorte que la graine est stockée (et la recherche parmi les graines est systématique).
À la recherche d'un R2 significatif et d'aucun test t non significatif, je n'ai rien trouvé jusqu'à une graine de 18 000. En recherchant une valeur de p inférieure à partir de R2 par rapport aux tests t, j'obtiens un résultat à seed = 323, mais la différence est très, très petite. Il est possible que peaufiner les paramètres (augmenter le nombre de groupes?) Puisse aider. La raison pour laquelle la valeur p R2 peut être inférieure est que lorsque l'erreur standard est calculée pour les paramètres de la régression, tous les groupes sont combinés, de sorte que l'erreur standard de la différence est potentiellement plus petite que dans le test t.
Je me demandais si la violation de l'hétéroscédasticité pouvait aider (pour ainsi dire). Cela fait. Si j'utilise
Pour générer le y, je trouve un résultat approprié à seed = 1889, où la valeur p minimale des tests t est 0,061 et la valeur p associée au R au carré est 0,046.
Si je fais varier la taille des groupes (ce qui augmente l'effet de violation de l'hétéroscédasticité), en remplaçant l'échantillonnage x par:
J'obtiens un résultat significatif à seed = 531, avec la valeur p minimale du test t à 0,063 et la valeur p pour R2 à 0,046.
Si j'arrête de corriger l'hétéroscédasticité dans le test t, en utilisant:
Ma conclusion est qu'il est très peu probable que cela se produise et que la différence soit très faible, à moins que vous n'ayez violé l'hypothèse d'homoscédasticité dans la régression. Essayez d'exécuter votre analyse avec un robuste / sandwich / comme vous voulez l'appeler correction.
la source
C'est tout à fait possible:
Le test F global teste tous les contrastes simultanément . En tant que tel, il doit être moins sensible (moins de puissance statistique) aux contrastes individuels (par exemple: un test par paire). Les deux tests sont étroitement liés, mais ils ne rapportent pas exactement la même chose.
Comme vous pouvez le voir, la recommandation du manuel de ne pas faire de comparaisons planifiées à moins que le test F global ne soit significatif n'est pas toujours correcte. En fait, la recommandation peut nous empêcher de trouver des différences significatives parce que le test F global a moins de puissance que les comparaisons prévues pour tester les différences spécifiques.
la source