Le LSD de Fisher est-il aussi mauvais qu'on le dit?

22

Lorsque nous effectuons des expériences (sur de petits échantillons (généralement la taille de l'échantillon par groupe de traitement est d'environ 7 à 8)) sur deux groupes, nous utilisons un test t pour tester la différence. Cependant, lorsque nous effectuons une ANOVA (évidemment pour plus de deux groupes), nous utilisons quelque chose comme Bonferroni (LSD / # de comparaisons par paires) ou Tukey's en tant que post-hoc, et en tant qu'étudiant, j'ai été averti de en utilisant la différence la moins significative de Fisher (LSD).

Maintenant, le fait est que le LSD est similaire au test t par paire (ai-je raison?), Et donc la seule chose qu'il ne tient pas compte est que nous faisons des comparaisons multiples. Dans quelle mesure est-ce important lorsque l'on traite de 6 groupes, si l'ANOVA est elle-même significative?

Ou en d'autres termes, existe-t-il une raison scientifique / statistique d'utiliser le LSD de Fisher?

Rover Eye
la source
1
Pourriez-vous clarifier qui ils sont et inclure des exemples de ce qu'ils disent? (À quel point disent-ils que c'est mauvais? Soyons clairs de ce dont nous discutons ici.) J'ai vu certaines critiques du LSD, certaines justifiées, mais je ne sais pas si j'ai vu ce que vous avez vu, ni que ce que j'ai vu exigerait tout à fait la caractérisation que vous avez là.
Glen_b -Reinstate Monica
+1 si vous êtes venu ici en essayant de savoir quel site d'échange de pile parle de Timothy Learys LSD
PW Kad
@Glen_b Ils font référence aux scientifiques des sciences biomédicales. Les mots de mon professeur étaient, pour citer "Utilisez Bonferroni ou Tukey. Utilisez le LSD uniquement en désespoir de cause. Si cela ne vous aide pas, utilisez l'autre LSD :)"
Rover Eye

Réponses:

10

Le LSD de Fisher est en effet une série de tests t par paire, chaque test utilisant l'erreur quadratique moyenne de l'ANOVA significative comme estimation de sa variance groupée (et prenant naturellement les degrés de liberté associés). Que l'ANOVA soit significative est une contrainte supplémentaire de ce test.

Il limite le taux d'erreur familial à alpha dans le cas spécial de 3 groupes seulement. Howell a une très bonne et relativement simple explication de la façon dont il le fait dans le chapitre 16 de son livre Fundamental Statistics for the Behavioral Sciences, 8ème édition, David C. Howell .

Au-dessus de 3 groupes alpha se gonfle rapidement (comme @Alexis l'a noté ci-dessus). Il n'est certainement pas approprié pour 6 groupes. Je crois que c'est cette applicabilité limitée qui amène la plupart des gens à suggérer de l'ignorer en option.

Marcus Morrisey
la source
18

Quelle est l'importance des comparaisons multiples lorsqu'il s'agit de 6 groupes? Eh bien ... avec six groupes, vous traitez avec un maximum de comparaisons par pairespost hocpossibles. Je vais laisser l'inestimable Randall Munroe aborder l'importance des comparaisons multiples:6(61)2=15

entrez la description de l'image ici

Et je vais ajouter que si, dans votre première phrase, vous suggérez que , parfois , vous avez sept groupes, le nombre maximum de post hoc des tests est par paires 7(71)2=21

Alexis
la source
1
Point bien fait. Cependant, cela ne remet-il pas en cause le fait que si nous avons très peu de groupes (disons 3 (3 paires) ou 4 (6 paires)), la probabilité de trouver une valeur significative par hasard est faible? (encore une fois, le LSD est protégé par l'importance de l'ANOVA)
Rover Eye
2
α
2
@Rover Avoir 6 tests par paire qui réussissent tous avec p> 0,05 signifie déjà que vous avez maintenant p> 0,26, c'est un changement assez important.
Voo
Je ne demande rien de pratique, je réfléchissais simplement à haute voix. Mais votre argument est bien fait. @Voo true, l'erreur a tendance à se multiplier. Merci à vous deux.
Rover Eye
10

Le test de Fisher est aussi mauvais que tout le monde le dit du point de vue de Neyman-Pearson et si vous faites ce que votre question implique --- après un test ANOVA significatif, chaque différence individuelle. Vous pouvez le voir dans de nombreux articles publiés . Mais, tester toutes les différences après une ANOVA, ou l'une d'entre elles, n'est ni nécessaire ni recommandé. Et, le test de Fisher n'a pas été conçu selon une théorie de Neyman-Pearson de l'inférence statistique.

Il est important de garder à l'esprit que, lorsque Fisher a proposé le LSD, il n'a pas vraiment considéré les tests multiples comme un problème important, car il ne considérait pas la valeur seuil comme une règle stricte pour décider si les résultats étaient importants ou non. On pourrait construire un LSD comme un moyen facile de parcourir les données pour savoir où il pourrait y avoir des résultats significatifs mais pas l'arbitre de ce qui était significatif. Rappelez-vous, c'est Fisher qui a dit que vous devriez simplement exécuter plus de sujets si p > 0,05.

Et pourquoi pensez-vous que tout tester est une bonne idée? Considérez pourquoi vous exécutez une ANOVA en premier lieu. On vous a probablement appris que c'est parce que l'exécution de plusieurs tests t est problématique, comme vous l'intimez dans votre question. Alors pourquoi les lancez-vous, ou leur équivalent par la suite? Je sais que cela arrive, mais je n'ai pas encore eu besoin de faire un test après une ANOVA. Une ANOVA vous indique que votre modèle de données n'est pas un ensemble de valeurs égales, qu'il peut y avoir un sens à cela. Beaucoup de gens sont suspendus à la prudence selon laquelle le test ne vous dit pas où sont les bits significatifs, mais ils oublient que les données et les théories vous le disent.

John
la source
Merci pour les papiers. vous vous demandez pourquoi les gens utilisent un post-hoc après une ANOVA. Pour vous dire la vérité honnête, je ne sais vraiment pas. On m'a dit que l'ANOVA est un test de goutte et, comme vous l'avez mentionné, nous devions savoir où se situe la signification. Et pour être honnête, je suis intéressé à savoir comment vous signalez une ANOVA uniquement.
Rover Eye
1
Donnez-moi un modèle de données et je vous dirai comment je signalerais l'ANOVA. La version courte est que vous décrivez les données. Les éléments très proches les uns des autres seraient regroupés dans la description et ceux, très éloignés, considérés comme des différences significatives (mais tout est relatif). Disons que j'ai A = 20, B = 58, C = 61, p = 0,03. Je rapporterais les statistiques et dirais que A est inférieur à B et C, qui sont similaires. Tout dépend donc des données. Je peux imaginer une séquence d'éléments un peu gênants (A = 10, B = 20, C = 30) de certaines manières déductives, mais alors j'aurais peut-être dû faire une régression.
John
C'est une façon assez intéressante de signaler une ANOVA et je peux voir où vous en êtes. Bien que je puisse sûrement en discuter avec mes superviseurs, je ne sais pas trop s'ils aimeraient enfreindre la "norme" de rapporter une ANOVA sans posthoc. Essayer de trouver des publications scientifiques qui ont signalé utiliser cette méthode.
Rover Eye
2
Quelque chose est significatif dans les données. Très souvent, il est évident que cela doit être. Faire un post-hoc pour démontrer l'évidence montre simplement que vous ne savez pas ce que fait l'ANOVA en premier lieu.
John
6

Le raisonnement derrière le LSD de Fisher peut être étendu aux cas au-delà de N = 3.

Je vais discuter en détail du cas de quatre groupes. Pour maintenir le taux d'erreur de type I au niveau familial à 0,05 ou moins, un facteur de correction à comparaisons multiples de 3 (c'est-à-dire un alpha par comparaison de 0,05 / 3) suffit, bien qu'il y ait six comparaisons post-hoc entre les quatre groupes. Ceci est dû au fait:

  • dans le cas où les quatre vraies moyennes sont égales, l'omnibus Anova sur les quatre groupes limite le taux d'erreur par famille à 0,05;
  • dans le cas où trois des vraies moyennes sont égales et que la quatrième en diffère, il n'y a que trois comparaisons qui pourraient potentiellement produire une erreur de type I;
  • dans le cas où deux des vraies moyennes sont égales et diffèrent des deux autres, qui sont égales l'une à l'autre, il n'y a que deux comparaisons qui pourraient potentiellement produire une erreur de type I.

Cela épuise les possibilités. Dans tous les cas, la probabilité de trouver une ou plusieurs valeurs p inférieures à 0,05 pour les groupes dont les moyennes moyennes sont égales, reste égale ou inférieure à 0,05 si le facteur de correction pour les comparaisons multiples est de 3, et c'est la définition du taux d'erreur familial.

Ce raisonnement pour quatre groupes est une généralisation de l'explication de Fisher pour sa méthode des différences les moins significatives en trois groupes. Pour N groupes, le facteur de correction, si le test Anova omnibus est significatif, est ( N -1) ( N -2) / 2. La correction de Bonferroni, d'un facteur N ( N -1) / 2, est donc trop forte. Il suffit d'utiliser un facteur de correction alpha de 1 pour N = 3 (c'est pourquoi le LSD de Fisher fonctionne pour N = 3), un facteur de 3 pour N = 4, un facteur de 6 pour N = 5, un facteur de 10 pour N = 6, etc.

Paul Boersma
la source
+1. C'est un très bon ajout au fil. Bienvenue sur le site!
Amoeba dit Reinstate Monica
Chaque situation que vous avez décrite ne nécessite aucun test post hoc.
John
1
Pouvez-vous indiquer une référence bibliographique pour cela (N-1)(N-2)/2résultat?
rvl