J'ai du mal à comprendre quel est vraiment le problème des comparaisons multiples . Avec une simple analogie, on dit qu'une personne qui prendra de nombreuses décisions commettra de nombreuses erreurs. On applique donc une précaution très prudente, comme la correction de Bonferroni, de manière à rendre probable que cette personne commette une erreur, aussi basse que possible.
Mais pourquoi nous soucions-nous de savoir si la personne a commis une erreur parmi toutes ses décisions, plutôt que le pourcentage de mauvaises décisions?
Permettez-moi d'essayer d'expliquer ce qui me confond avec une autre analogie. Supposons qu'il y ait deux juges, l'un a 60 ans et l'autre 20 ans. Ensuite, la correction de Bonferroni demande à celui qui a 20 ans d’être le plus conservateur possible dans sa décision d’exécution, car il travaillera encore pendant de nombreuses années en tant que juge et prendra beaucoup plus de décisions; il doit donc faire preuve de prudence. Mais celui qui a 60 ans va probablement prendre sa retraite bientôt, prendra moins de décisions, alors il peut être plus insouciant que l’autre. Mais en réalité, les deux juges devraient être tout aussi prudents que conservateurs, quel que soit le nombre total de décisions qu'ils vont prendre. Je pense que cette analogie se traduit plus ou moins par les véritables problèmes d'application de la correction de Bonferroni, ce que je trouve contre-intuitif.
Réponses:
Vous avez dit quelque chose qui est un contre-argument classique aux corrections de Bonferroni. Ne devrais-je pas ajuster mon critère alpha en fonction de chaque test que je ferai un jour? Ce type d'implication ad absurdum est la raison pour laquelle certaines personnes ne croient pas du tout aux corrections de Bonferroni. Parfois, le type de données dont on traite dans leur carrière est tel que ce n’est pas un problème. Pour les juges qui prennent une ou très peu de décisions sur chaque nouvel élément de preuve, cet argument est très valable. Mais qu'en est-il du juge qui compte 20 accusés et qui fonde son jugement sur un seul grand ensemble de données (par exemple, les tribunaux de guerre)?
Vous ignorez les coups de pied à la partie can de l'argument. Généralement, les scientifiques recherchent quelque chose - une valeur p inférieure à alpha. Toute tentative pour en trouver un est un autre coup dur. On finira par en trouver un si on prend assez de coups. Par conséquent, ils devraient être pénalisés pour avoir fait cela.
Si vous harmonisez ces deux arguments, vous réaliserez qu’ils sont vrais. La solution la plus simple est d’envisager de tester les différences au sein d’un même ensemble de données pour résoudre le problème, mais que l’élargissement de la portée de la correction à l’extérieur serait une pente glissante.
Il s’agit d’un problème véritablement difficile dans un certain nombre de domaines, notamment l’IRMF, où des milliers de points de données sont comparés et où certains risquent d’être considérés comme importants par hasard. Étant donné que le champ a été historiquement très exploratoire, il faut faire quelque chose pour corriger le fait que des centaines de zones du cerveau auront l’air significatif d’être purement fortuites. Par conséquent, de nombreuses méthodes d'ajustement de critère ont été développées dans ce domaine.
D'autre part, dans certains domaines, on peut tout au plus regarder 3 à 5 niveaux d'une variable et toujours juste tester chaque combinaison si une ANOVA significative se produit. Ceci est connu pour avoir quelques problèmes (erreurs de type 1) mais ce n'est pas particulièrement grave.
Cela dépend de votre point de vue. Le chercheur FMRI reconnaît le besoin réel d'un changement de critère. La personne qui regarde une petite ANOVA peut avoir l’impression que le test a clairement un effet. Le point de vue conservateur approprié sur les comparaisons multiples est de toujours faire quelque chose à leur sujet, mais uniquement en se basant sur un seul jeu de données. Toute nouvelle donnée réinitialise le critère ... sauf si vous êtes bayésien ...
la source
Des statisticiens réputés ont adopté une grande variété de positions sur de nombreuses comparaisons. C'est un sujet subtil. Si quelqu'un pense que c'est simple, je me demande à quel point ils y ont pensé.
Andrew Gelman présente une perspective bayésienne intéressante sur les tests multiples: Pourquoi ne nous inquiétons-nous pas (habituellement) des comparaisons multiples ?
la source
En relation avec le commentaire précédent, le chercheur en IRMf devrait se rappeler que ce qui compte, ce sont les résultats d'importance clinique et non le décalage de densité d'un pixel sur une IRMf du cerveau. Si cela n'entraîne pas d'amélioration / de préjudice clinique, cela n'a pas d'importance. C’est un moyen de réduire les préoccupations au sujet des comparaisons multiples.
Voir également:
la source
choisir le même seuil pour tout le monde
choisir un seuil différent pour tout le monde (le plus souvent un seuil basé sur les données, voir ci-dessous).
Différents objectifs: Ces options peuvent être orientées vers différents objectifs tels que
Contrôle de l'attente du taux de fausses alertes (ou taux de détection fausse)
Quel que soit votre objectif final, il est judicieux d’utiliser un seuil de données.
Ma réponse à votre question: votre intuition est liée à l'heuristique principale pour choisir un seuil de données. C'est la suivante (à l'origine de la procédure de Holm qui est plus puissante que Bonferoni):
Dans le cas de vos juges: je suppose (et je suppose que vous devriez faire la même chose) que les deux juges ont les mêmes budgets de fausses accusations pour leur vie. Le juge âgé de 60 ans est peut-être moins conservateur si, par le passé, il n'a accusé personne! Mais s'il a déjà beaucoup accusé, il sera plus conservateur et peut-être même plus que le juge le plus terrible.
la source
Un article illustrant (et amusant); http://www.jsur.org/ar/jsur_ben102010.pdf ) sur la nécessité de corriger plusieurs tests dans une étude pratique faisant évoluer de nombreuses variables, par exemple, fmri. Cette courte citation dit l'essentiel du message:
C'est, selon mon expérience, un argument formidable pour encourager les utilisateurs à utiliser plusieurs corrections de test.
la source