J'ai bien peur que les questions connexes n'aient pas répondu aux miennes. Nous évaluons les performances de> 2 classificateurs (machine learning). Notre hypothèse nulle est que les performances ne diffèrent pas. Nous effectuons des tests paramétriques (ANOVA) et non paramétriques (Friedman) pour évaluer cette hypothèse. S'ils sont importants, nous voulons savoir quels classificateurs diffèrent dans une quête post-hoc.
Ma question est double:
1) Une correction des valeurs de p après des tests de comparaisons multiples est-elle nécessaire? Le site allemand Wikipédia sur "Alphafehler Kumulierung" dit que le problème ne se produit que si plusieurs hypothèses sont testées sur les mêmes données. Lors de la comparaison des classificateurs (1,2), (1,3), (2,3), les données ne se chevauchent que partiellement. Faut-il encore corriger les valeurs de p?
2) La correction de la valeur P est souvent utilisée après un test par paire avec un test t. Est-il également nécessaire lors de tests post-hoc spécialisés, tels que le test HSD de Nemenyi (non paramétrique) ou de Tukey? Cette réponse dit «non» pour le HSD de Tukey: le test HSD de Tukey corrige-t-il les comparaisons multiples? . Existe-t-il une règle ou dois-je la rechercher pour chaque test post-hoc potentiel?
Merci!
Réponses:
Réponse à la question 1
Vous devez ajuster les comparaisons multiples si vous vous souciez de la probabilité de commettre une erreur de type I. Une simple combinaison de métaphore / expérience de pensée peut aider:
Si vous ne vous souciez pas des erreurs et que vous ne vous souciez pas que les gens dirigent votre attention de façon répétée et moqueuse vers un certain dessin animé sur les bonbons , alors allez-y et ne vous ajustez pas pour des comparaisons multiples.
Le problème des «mêmes données» se pose dans les méthodes de correction des erreurs au niveau de la famille (par exemple Bonferroni, Holm-Sidák, etc.), car le concept de «famille» est quelque peu vague. Cependant, les méthodes de taux de fausses découvertes (par exemple Benjamini et Hochberg, Benjamini et Yeuketeli, etc.) ont la propriété que leurs résultats sont robustes à travers différents groupes d'inférences.
Réponse à la question 2
La plupart des tests par paire nécessitent une correction, bien qu'il existe des différences stylistiques et disciplinaires dans ce qui est appelé test. Par exemple, certaines personnes se réfèrent aux " tests de Bonferroni t " (ce qui est une astuce intéressante, car Bonferroni n'a développé ni le test t , ni l'ajustement de Bonferroni pour des comparaisons multiples :). Personnellement, je trouve cela insatisfaisant, car (1) je voudrais faire une distinction entre la réalisation d'un groupe de tests statistiques et l'ajustement pour plusieurs comparaisons afin de comprendre efficacement les inférences que je fais, et (2) lorsque quelqu'un vient avec un nouveau test par paire fondé sur une définition solide de , alors je sais que je peux effectuer des ajustements pour plusieurs comparaisons.
la source