Nous savons que nous devons appliquer des corrections de type Benjamini Hochberg pour les tests d'hypothèses multiples aux expériences basées sur un seul ensemble de données, afin de contrôler le taux de fausses découvertes, sinon toutes les expériences qui donnent un résultat positif pourraient être fausses.
Mais pourquoi n'appliquons-nous pas ce même principe à toutes les expériences depuis le début des temps, quelle que soit la provenance des données?
Après tout, plus de la moitié des résultats scientifiques publiés qui sont considérés comme "significatifs" sont maintenant connus pour être faux et irréproductibles, et il n'y a aucune raison pour que cela ne soit pas aussi facilement à 100%. Comme les scientifiques ont seulement tendance à publier des résultats positifs, nous n'avons aucune idée du nombre de résultats négatifs, nous n'avons donc aucune idée si ce que nous publions n'est que des faux positifs - des résultats positifs qui ont surgi par pur hasard au hasard sous l'hypothèse nulle. Pendant ce temps, rien ne dit que les calculs derrière les corrections de tests d'hypothèses multiples ne devraient s'appliquer qu'aux résultats du même ensemble de données, et non aux résultats de toutes les données expérimentales acquises au fil du temps.
Il semble que l'ensemble de la science soit devenue une grande expédition de pêche basée sur des hypothèses fausses ou faibles, alors comment pouvons-nous contrôler cela?
Comment pouvons-nous contrôler le taux de fausses découvertes, si tout ce que nous publions est des résultats indépendants obtenus sans appliquer de correction pour les tests d'hypothèses multiples sur toutes les expériences réalisées à ce jour?
Est-il possible de contrôler le taux de fausses découvertes sans appliquer une telle correction?
Réponses:
Ce serait évidemment un cauchemar absolu à faire dans la pratique, mais supposons que cela puisse être fait: nous nommons un sultan statistique et tous ceux qui effectuent un test d'hypothèse rapportent leurs valeurs brutes à ce despote. Il effectue une sorte de correction globale (littéralement) des comparaisons multiples et répond avec les versions corrigées.p
Cela ouvrirait-il un âge d'or de la science et de la raison? Non, probablement pas.
Commençons par considérer une paire d'hypothèses, comme dans un test. Nous mesurons une propriété de deux groupes et voulons distinguer deux hypothèses sur cette propriété: Dans un échantillon fini, il est peu probable que les moyennes soient exactement égales même si est vraiment vrai: l'erreur de mesure et d'autres sources de variabilité peuvent repousser les valeurs individuelles. Cependant, leH 0 : Les groupes ont la même moyenne. H A : Les groupes ont des moyens différents. H 0 H 0
Cela s'applique à un seul test. Supposons maintenant que vous décidiez d'exécuter plusieurs tests et que vous êtes prêt à accepter 5% de chances d'accepter par erreur pour chacun. Avec suffisamment de tests, vous allez donc certainement commencer à faire des erreurs, et beaucoup d'entre elles.H0
Les différentes approches de corrections multiples sont destinées à vous aider à revenir à un taux d'erreur nominal que vous avez déjà choisi de tolérer pour les tests individuels. Ils le font de manières légèrement différentes. Les méthodes qui contrôlent le taux d'erreur familial , comme les procédures Bonferroni , Sidak et Holm , disent "Vous vouliez 5% de chances de faire une erreur sur un seul test, nous allons donc nous assurer qu'il n'y a pas plus de 5 % de chances de faire des erreurs dans tous vos tests. " Méthodes qui contrôlent le taux de fausses découvertesdites plutôt "Vous êtes apparemment d'accord pour vous tromper jusqu'à 5% du temps avec un seul test, nous nous assurerons donc que pas plus de 5% de vos" appels "sont erronés lorsque vous effectuez plusieurs tests". (Regarde la différence?)
Supposons maintenant que vous tentiez de contrôler le taux d'erreur au niveau de la famille de tous les tests d'hypothèse jamais exécutés. Vous dites essentiellement que vous voulez une <5% de chances de rejeter faussement toute hypothèse nulle, jamais. Cela établit un seuil incroyablement strict et l'inférence serait effectivement inutile, mais il y a un problème encore plus urgent: votre correction globale signifie que vous testez des "hypothèses composées" absolument absurdes comme
Avec les corrections de faux taux de découverte, le problème numérique n'est pas aussi grave, mais c'est toujours un gâchis philosophiquement. Au lieu de cela, il est logique de définir une "famille" de tests connexes, comme une liste de gènes candidats lors d'une étude génomique, ou un ensemble de casiers temps-fréquence lors d'une analyse spectrale. Adapter votre famille à une question spécifique vous permet d'interpréter votre erreur de type I de manière directe. Par exemple, vous pouvez regarder un ensemble de valeurs de p corrigé par FWER à partir de vos propres données génomiques et dire «il y a <5% de chance que l'un de ces gènes soit un faux positif». C'est bien mieux qu'une garantie nébuleuse qui couvre les inférences faites par des personnes qui ne vous intéressent pas sur des sujets qui ne vous intéressent pas.
Le revers de la médaille est que le choix approprié de "famille" est discutable et un peu subjectif (tous les gènes sont-ils une seule famille ou puis-je simplement considérer les kinases?) Mais cela devrait être informé par votre problème et je ne crois pas que quiconque a sérieusement préconisé de définir les familles presque aussi largement.
Et Bayes?
L'analyse bayésienne offre une alternative cohérente à ce problème - si vous êtes prêt à vous éloigner un peu du cadre d'erreur Frequentist Type I / Type II. Nous commençons par un certain non-engagement avant ... enfin ... tout. Chaque fois que nous apprenons quelque chose, cette information est combinée avec le précédent pour générer une distribution postérieure, qui devient à son tour le prieur pour la prochaine fois que nous apprenons quelque chose. Cela vous donne une règle de mise à jour cohérente et vous pouvez comparer différentes hypothèses sur des choses spécifiques en calculant le facteur Bayes entre deux hypothèses. Vous pourriez vraisemblablement prendre en compte de gros morceaux du modèle, ce qui ne rendrait même pas cela particulièrement onéreux.
Il y a un mème persistant ... que les méthodes bayésiennes ne nécessitent pas de multiples corrections de comparaisons. Malheureusement, les probabilités postérieures ne sont qu'une autre statistique de test pour les fréquentistes (c'est-à-dire les personnes qui se soucient des erreurs de type I / II). Ils n'ont pas de propriétés spéciales qui contrôlent ces types d'erreurs (pourquoi le feraient-ils?) Ainsi, vous êtes de retour en territoire insoluble, mais peut-être sur un terrain légèrement plus raisonné.
Le contre-argument bayésien est que nous devrions nous concentrer sur ce que nous pouvons savoir maintenant et donc ces taux d'erreur ne sont pas aussi importants.
Sur la reproductibilité
Vous semblez suggérer que de multiples comparaisons-corrections incorrectes sont à l'origine de nombreux résultats incorrects / non reproductibles. J'ai l'impression que d'autres facteurs sont plus susceptibles de poser problème. Une évidence est que la pression de publier amène les gens à éviter les expériences qui mettent vraiment en valeur leur hypothèse (c.-à-d. Une mauvaise conception expérimentale).
Par exemple, [dans cette expérience] (partie de l'initiation de reproductibilité d'Amgen (ir) 6 , il s'avère que les souris ont eu des mutations dans des gènes autres que le gène d'intérêt. Andrew Gelman aime aussi parler du Jardin des Chemins de Fourche , dans lequel les chercheurs choisissent un plan d'analyse (raisonnable) basé sur les données, mais auraient pu effectuer d'autres analyses si les données semblaient différentes. Cela gonfle les valeurs de de la même manière que les comparaisons multiples, mais est beaucoup plus difficile à corriger par la suite. Analyse manifestement incorrecte peut également jouer un rôle, mais mon sentiment (et j'espère) est que cela s'améliore progressivement.p
la source
Je pense que vous peignez délibérément une vision pessimiste de la science produite par les statistiques. En effet, à mon avis, la statistique n'est pas seulement un ensemble d'outils fournissant des valeurs de p. Il y a aussi un état de rigueur, d'attention et de vigilance à propos de certains effets possibles impliqués dans la procédure d'induction scientifique ... et même si à mon avis, tout ce que vous déclarez est à peu près vrai, voici quelques-unes de mes opinions sur les raisons pour lesquelles nous avons des garanties sur les connaissances que nous produisons:
Premièrement, d'une manière générale, une conclusion ne doit pas être tirée uniquement sous l'argument d'une valeur p inférieure à un seuil donné.
Deuxièmement, à ma connaissance, les arguments du type "plus de la moitié des résultats scientifiques publiés sont erronés" sont pertinents et intéressants, mais sont calculés sur la base de valeurs p approximativement égales à 0,05 (voir par exemple Confusion concernant les valeurs p et le taux de fausses découvertes ) . Pour des valeurs de p inférieures, l'effet est bien inférieur à celui annoncé et en pratique, il n'est pas rare d'obtenir des valeurs de p bien inférieures à 0,05. De plus, plusieurs fois une hypothèse donnée est confirmée par plusieurs sous-hypothèses, ce qui réduit encore les effets annoncés.
Troisièmement, la question de la reproductibilité est authentique mais est également un problème qui doit être traité par le statisticien en identifiant et en traitant les effets de confusion, les conceptions de groupe ... et cela peut être très bien fait si cela est fait avec expertise et rigueur.
Enfin, si je comprends bien, une étude statistique archétypale doit plus ou moins reposer sur les 5 étapes successives suivantes:
Cette ligne directrice générale nous empêche de faire des expéditions de pêche comme outil pour produire des conclusions générales.
Pour conclure, je dirais que votre intention de nous protéger contre les mauvaises conclusions scientifiques en dépassant les seuils p est un peu illusoire. Je préférerais nous protéger des mauvaises conclusions scientifiques en assurant et en encourageant des analyses averties et correctes (et j'aimerais penser que c'est une raison pour laquelle tant de personnes qualifiées sont là pour aider les autres sur ce site).
la source
N'oubliez pas que les taux d'erreur (fréquentiste) ne concernent pas du tout les probabilités d'une hypothèse testée par un test individuel, mais comme des méthodes pour effectuer des tests avec des taux d'échec à long terme garantis. La correction pour les comparaisons multiples est une autre méthode pour garantir les taux d'échec à long terme: une pour construire des méthodes composées qui contiennent plusieurs tests de sorte qu'un certain taux d'échec garanti à long terme pour le composé soit valide.
Si vous effectuez une seule expérience avec 100 tests et déclarez que 5 d'entre eux ont parlé contre le nul, affirmant ainsi que vous avez observé un résultat réel, personne ne sera impressionné, sachant qu'en moyenne, parmi 100 tests de vrais nulls, 5% rejeter; la méthode que vous avez employée, "effectuer 100 tests et signaler si l'un d'entre eux atteint le seuil de 5%", a un taux d'échec supérieur à 5%. Ainsi, vous pouvez choisir de contrôler les comparaisons multiples et signaler que, par exemple, 2 tests sur 100 avaient des valeurs de p inférieures à (5/100 == 0,05)%. Vous utilisez maintenant une méthode qui présente à nouveau un taux d'échec garanti (pour l'erreur de rapport d'au moins un test significatif même si aucune hypothèse n'est fausse) de 5%.
la source