J'ai une sorte de question philosophique sur le moment où une correction de comparaison multiple est nécessaire.
Je mesure un signal variant dans le temps continu (à des moments discrets). Des événements distincts ont lieu de temps en temps et je voudrais établir si ces événements ont un effet significatif sur le signal mesuré.
Je peux donc prendre le signal moyen qui suit un événement, et généralement je peux y voir un effet avec un certain pic. Si je choisis l'heure de ce pic et dis un test t pour déterminer s'il est significatif par rapport à quand l'événement ne se produit pas, dois-je faire une correction de comparaison multiple?
Bien que je n'ai jamais effectué qu'un seul test t (valeur calculée 1), lors de mon inspection visuelle initiale, j'ai sélectionné celui avec le plus grand effet potentiel parmi les (disons) 15 points de temps de retard de retard différents que j'ai tracés. Dois-je donc faire une correction de comparaison multiple pour ces 15 tests que je n'ai jamais effectués?
Si je n'utilisais pas d'inspection visuelle, mais faisais juste le test à chaque décalage d'événement et choisissais le plus élevé, je devrais sûrement le corriger. Je suis juste un peu confus quant à savoir si j'en ai besoin ou non si la sélection du «meilleur délai» est faite par un autre critère que le test lui-même (par exemple, sélection visuelle, moyenne la plus élevée, etc.)
Il y a longtemps, dans l'un de mes premiers cours de statistiques, je lisais à ce sujet dans un texte (je pense que c'était une ancienne édition du livre de Cohen sur la régression) où il était dit "c'est une question sur laquelle les gens raisonnables peuvent différer".
Il n'est pas clair pour moi que quiconque ait jamais besoin de corriger des comparaisons multiples, ni, s'il le fait, sur quelle période ou ensemble de comparaisons il devrait corriger. Chaque article? Chaque régression ou ANOVA? Tout ce qu'ils publient sur un sujet? Qu'en est-il de ce que D'AUTRES personnes publient?
Comme vous l'écrivez dans votre première ligne, c'est philosophique.
la source
Si vous essayez de prendre des décisions ponctuelles sur la réalité et que vous souhaitez contrôler le taux auquel vous rejetez faussement l'hypothèse nulle, alors vous utiliserez le test de signification d'hypothèse nulle (NHST) et voudrez utiliser la correction pour des comparaisons multiples. Cependant, comme Peter Flom le note dans sa réponse, il n'est pas clair comment définir l'ensemble de comparaisons sur lesquelles appliquer la correction. Le choix le plus simple est l'ensemble de comparaisons appliquées à un ensemble de données donné, et c'est l'approche la plus courante.
Cependant, la science est sans doute mieux conçue comme un système cumulatif où des décisions ponctuelles ne sont pas nécessaires et ne servent en fait qu'à réduire l'efficacité de l'accumulation de preuves (réduire les preuves obtenues à un seul élément d'information). Ainsi, si l'on suit une approche correctement scientifique de l'analyse statistique, en évitant NHST pour des outils comme les rapports de vraisemblance (peut-être aussi les approches bayésiennes), alors le "problème" des comparaisons multiples disparaît.
la source
Une alternative possible à la correction, selon votre question, est de tester la signification de la somme des valeurs de p. Vous pouvez alors même vous pénaliser pour les tests qui ne sont pas effectués en ajoutant des valeurs de p élevées.
Des extensions (qui ne nécessitent pas d'indépendance) de la méthode de Fisher (qui nécessitent une indépendance de test) pourraient être utilisées.
Par exemple. La méthode de Kost
la source
Une chose très importante à retenir est que la correction de tests multiples suppose des tests indépendants. Si les données que vous analysez ne sont pas indépendantes, les choses deviennent un peu plus compliquées que la simple correction du nombre de tests effectués, vous devez tenir compte de la corrélation entre les données analysées ou votre correction sera probablement beaucoup trop conservatrice et vous le ferez ont un taux d'erreur élevé de type II. J'ai trouvé que la validation croisée, les tests de permutation ou le bootstrap peuvent être des moyens efficaces pour gérer plusieurs comparaisons s'ils sont utilisés correctement. D'autres ont mentionné l'utilisation du FDR, mais cela peut donner des résultats incorrects s'il y a beaucoup de non-indépendance dans vos données car il suppose que les valeurs de p sont uniformes dans tous les tests sous le null.
la source