Pourquoi les corrections d'hypothèses multiples ne sont-elles pas appliquées à toutes les expériences depuis la nuit des temps?

24

Nous savons que nous devons appliquer des corrections de type Benjamini Hochberg pour les tests d'hypothèses multiples aux expériences basées sur un seul ensemble de données, afin de contrôler le taux de fausses découvertes, sinon toutes les expériences qui donnent un résultat positif pourraient être fausses.

Mais pourquoi n'appliquons-nous pas ce même principe à toutes les expériences depuis le début des temps, quelle que soit la provenance des données?

Après tout, plus de la moitié des résultats scientifiques publiés qui sont considérés comme "significatifs" sont maintenant connus pour être faux et irréproductibles, et il n'y a aucune raison pour que cela ne soit pas aussi facilement à 100%. Comme les scientifiques ont seulement tendance à publier des résultats positifs, nous n'avons aucune idée du nombre de résultats négatifs, nous n'avons donc aucune idée si ce que nous publions n'est que des faux positifs - des résultats positifs qui ont surgi par pur hasard au hasard sous l'hypothèse nulle. Pendant ce temps, rien ne dit que les calculs derrière les corrections de tests d'hypothèses multiples ne devraient s'appliquer qu'aux résultats du même ensemble de données, et non aux résultats de toutes les données expérimentales acquises au fil du temps.

Il semble que l'ensemble de la science soit devenue une grande expédition de pêche basée sur des hypothèses fausses ou faibles, alors comment pouvons-nous contrôler cela?

Comment pouvons-nous contrôler le taux de fausses découvertes, si tout ce que nous publions est des résultats indépendants obtenus sans appliquer de correction pour les tests d'hypothèses multiples sur toutes les expériences réalisées à ce jour?

Est-il possible de contrôler le taux de fausses découvertes sans appliquer une telle correction?

Kelvin
la source
2
Votre propre question meta.stats.stackexchange.com/questions/3049/… s'applique. Cela regroupe plusieurs déclarations controversées (dans certains cas très exagérées) avec plusieurs grandes questions. Je pense que cela va à l'encontre du consensus des conseils qui vous a déjà été donné.
Nick Cox
3
Désolé, je ne sais pas à quelles réponses vous faites référence: je ne vois aucune référence ici. Je ne vote pas pour fermer et je n'ai (naturellement) aucun désir ou pouvoir d'empêcher les gens de répondre. Mais, par exemple, "depuis la nuit des temps" est un petit exemple d'exagération inutile et il y en a plusieurs autres dans votre message. Être provocateur pour lui-même ne permettra pas, d'après mon expérience de ce site, de répondre à votre question sous-jacente. Les lecteurs doivent retirer le style de la substance.
Nick Cox
3
Merci pour l'invitation, mais la vie est courte. Je vais laisser ma référence croisée au méta-fil comme mon point principal. J'ai exprimé mon opinion sur le style et la substance, qui peuvent rester ou tomber sur ses mérites ici.
Nick Cox
9
Si je fais de la science, peu m'importe les fausses découvertes que vous avez faites. En effet, pour ce qui est de faire une affirmation scientifique particulière, je ne me soucie guère des autres fausses découvertes que j'ai faites. Si je ne fais pas de science, je ne me soucie peut-être même pas des autres fausses découvertes que j'ai faites dans cette analyse particulière - parce que si je choisis mon taux d'erreur de type I en fonction des coûts relatifs des deux types d'erreurs, j'ai déjà choisi le compromis entre les deux, et ne devrait pas du tout corriger les comparaisons multiples.
Glen_b -Reinstate Monica
2
Heureusement, d'autres ont présenté des points de vue similaires aux miens avec force et clarté. En guise de commentaire supplémentaire, je déconseille de confondre la science (tout ce qui a une valeur durable) avec sa littérature. Il existe de nombreuses manières dont la littérature déçoit: imprécision, trivialité, erreurs logiques, etc. (S'il s'agit d'un essai de drogue, cela peut être très important.) Donc, il y a beaucoup de choses à craindre, mais je ne pense pas que la science soit condamnée.
Nick Cox

Réponses:

20

Ce serait évidemment un cauchemar absolu à faire dans la pratique, mais supposons que cela puisse être fait: nous nommons un sultan statistique et tous ceux qui effectuent un test d'hypothèse rapportent leurs valeurs brutes à ce despote. Il effectue une sorte de correction globale (littéralement) des comparaisons multiples et répond avec les versions corrigées.p

Cela ouvrirait-il un âge d'or de la science et de la raison? Non, probablement pas.


Commençons par considérer une paire d'hypothèses, comme dans un test. Nous mesurons une propriété de deux groupes et voulons distinguer deux hypothèses sur cette propriété: Dans un échantillon fini, il est peu probable que les moyennes soient exactement égales même si est vraiment vrai: l'erreur de mesure et d'autres sources de variabilité peuvent repousser les valeurs individuelles. Cependant, leH 0 :  Les groupes ont la même moyenne. H A :  Les groupes ont des moyens différents. H 0 H 0t
H0: The groups have the same mean.HA: The groups have different means.
H0H0l'hypothèse est en quelque sorte «ennuyeuse», et les chercheurs sont généralement soucieux d'éviter une situation «faux positif» dans laquelle ils prétendent avoir trouvé une différence entre les groupes où il n'en existe pas vraiment. Par conséquent, nous n'appelons les résultats "significatifs" que s'ils semblent improbables sous l'hypothèse nulle et, par convention, que le seuil de non-ressemblance est fixé à 5%.

Cela s'applique à un seul test. Supposons maintenant que vous décidiez d'exécuter plusieurs tests et que vous êtes prêt à accepter 5% de chances d'accepter par erreur pour chacun. Avec suffisamment de tests, vous allez donc certainement commencer à faire des erreurs, et beaucoup d'entre elles.H0

Les différentes approches de corrections multiples sont destinées à vous aider à revenir à un taux d'erreur nominal que vous avez déjà choisi de tolérer pour les tests individuels. Ils le font de manières légèrement différentes. Les méthodes qui contrôlent le taux d'erreur familial , comme les procédures Bonferroni , Sidak et Holm , disent "Vous vouliez 5% de chances de faire une erreur sur un seul test, nous allons donc nous assurer qu'il n'y a pas plus de 5 % de chances de faire des erreurs dans tous vos tests. " Méthodes qui contrôlent le taux de fausses découvertesdites plutôt "Vous êtes apparemment d'accord pour vous tromper jusqu'à 5% du temps avec un seul test, nous nous assurerons donc que pas plus de 5% de vos" appels "sont erronés lorsque vous effectuez plusieurs tests". (Regarde la différence?)


Supposons maintenant que vous tentiez de contrôler le taux d'erreur au niveau de la famille de tous les tests d'hypothèse jamais exécutés. Vous dites essentiellement que vous voulez une <5% de chances de rejeter faussement toute hypothèse nulle, jamais. Cela établit un seuil incroyablement strict et l'inférence serait effectivement inutile, mais il y a un problème encore plus urgent: votre correction globale signifie que vous testez des "hypothèses composées" absolument absurdes comme

H1:Drug XYZ changes T-cell count Grapes grow better in some fields Men and women eat different amounts of ice cream

Avec les corrections de faux taux de découverte, le problème numérique n'est pas aussi grave, mais c'est toujours un gâchis philosophiquement. Au lieu de cela, il est logique de définir une "famille" de tests connexes, comme une liste de gènes candidats lors d'une étude génomique, ou un ensemble de casiers temps-fréquence lors d'une analyse spectrale. Adapter votre famille à une question spécifique vous permet d'interpréter votre erreur de type I de manière directe. Par exemple, vous pouvez regarder un ensemble de valeurs de p corrigé par FWER à partir de vos propres données génomiques et dire «il y a <5% de chance que l'un de ces gènes soit un faux positif». C'est bien mieux qu'une garantie nébuleuse qui couvre les inférences faites par des personnes qui ne vous intéressent pas sur des sujets qui ne vous intéressent pas.

Le revers de la médaille est que le choix approprié de "famille" est discutable et un peu subjectif (tous les gènes sont-ils une seule famille ou puis-je simplement considérer les kinases?) Mais cela devrait être informé par votre problème et je ne crois pas que quiconque a sérieusement préconisé de définir les familles presque aussi largement.


Et Bayes?

L'analyse bayésienne offre une alternative cohérente à ce problème - si vous êtes prêt à vous éloigner un peu du cadre d'erreur Frequentist Type I / Type II. Nous commençons par un certain non-engagement avant ... enfin ... tout. Chaque fois que nous apprenons quelque chose, cette information est combinée avec le précédent pour générer une distribution postérieure, qui devient à son tour le prieur pour la prochaine fois que nous apprenons quelque chose. Cela vous donne une règle de mise à jour cohérente et vous pouvez comparer différentes hypothèses sur des choses spécifiques en calculant le facteur Bayes entre deux hypothèses. Vous pourriez vraisemblablement prendre en compte de gros morceaux du modèle, ce qui ne rendrait même pas cela particulièrement onéreux.

Il y a un mème persistant ... que les méthodes bayésiennes ne nécessitent pas de multiples corrections de comparaisons. Malheureusement, les probabilités postérieures ne sont qu'une autre statistique de test pour les fréquentistes (c'est-à-dire les personnes qui se soucient des erreurs de type I / II). Ils n'ont pas de propriétés spéciales qui contrôlent ces types d'erreurs (pourquoi le feraient-ils?) Ainsi, vous êtes de retour en territoire insoluble, mais peut-être sur un terrain légèrement plus raisonné.

Le contre-argument bayésien est que nous devrions nous concentrer sur ce que nous pouvons savoir maintenant et donc ces taux d'erreur ne sont pas aussi importants.


Sur la reproductibilité

Vous semblez suggérer que de multiples comparaisons-corrections incorrectes sont à l'origine de nombreux résultats incorrects / non reproductibles. J'ai l'impression que d'autres facteurs sont plus susceptibles de poser problème. Une évidence est que la pression de publier amène les gens à éviter les expériences qui mettent vraiment en valeur leur hypothèse (c.-à-d. Une mauvaise conception expérimentale).

Par exemple, [dans cette expérience] (partie de l'initiation de reproductibilité d'Amgen (ir) 6 , il s'avère que les souris ont eu des mutations dans des gènes autres que le gène d'intérêt. Andrew Gelman aime aussi parler du Jardin des Chemins de Fourche , dans lequel les chercheurs choisissent un plan d'analyse (raisonnable) basé sur les données, mais auraient pu effectuer d'autres analyses si les données semblaient différentes. Cela gonfle les valeurs de de la même manière que les comparaisons multiples, mais est beaucoup plus difficile à corriger par la suite. Analyse manifestement incorrecte peut également jouer un rôle, mais mon sentiment (et j'espère) est que cela s'améliore progressivement.p

Matt Krause
la source
Merci Matt. J'adore l'idée d'un "sultan statistique". Est-il encore possible de contrôler le taux de fausses découvertes sans appliquer une telle correction?
Kelvin
9
Ce que je voulais essayer de faire est qu'il n'a pas de sens à se soucier de la False Discovery Rate (ou taux d'erreur de l' ) dans tous les efforts de l' homme. Cela exigerait tellement d'aversion au risque que vous ne feriez rien. Au lieu de cela, vous gardez le FDR / FWER pour les expériences individuelles assez bas et essayez de reproduire les choses importantes qui sont également intéressantes / utiles / etc.
Matt Krause
Merci, je suppose qu'en fin de compte, tout se résume à la reproduction des choses qui comptent. Cela est parfaitement conforme à la philosophie de la science, selon laquelle aucune hypothèse ne peut jamais être prouvée, mais renforcée au fil du temps par des expériences répétées.
Kelvin
3
+1 pour le sultan statistique. Une considération importante: comment Sultan devrait-il gérer le fait que les valeurs p arrivent successivement? Un moche p = 0,045 arrivant en premier sera considéré comme significatif mais après quelques siècles n'aura aucune chance? Cela ne semble pas logique (cc à @Kelvin). Autre considération: imaginez que Sultan devait attendre disons 1 an et appliquer la correction à tous les résultats de cette dernière année; Je me demande ce que le seuil alpha ajusté deviendrait réellement dans la pratique. Des idées à ce sujet, Matt? C'est (faussement!) En supposant que tout le monde s'accorde sur un alpha commun.
amibe dit Réintégrer Monica le
2
@amoeba, c'est une question intéressante et je ne suis pas sûr de le savoir. Notre bien-aimé Data Despot pourrait forcer tout le monde à utiliser une sorte de conception séquentielle, ce qui pourrait aider, mais il teste toujours cette étrange hypothèse composée. Alternativement, nous pourrions tous devenir bayésiens et cesser la plupart du temps de nous inquiéter de nos antécédents d'erreur de type I / II. C'est un peu bon marché (si vous ne pouvez pas les battre, ignorez-les!), Mais je pense que c'est proche de la façon dont les gens se comportent dans la pratique.
Matt Krause
7

Je pense que vous peignez délibérément une vision pessimiste de la science produite par les statistiques. En effet, à mon avis, la statistique n'est pas seulement un ensemble d'outils fournissant des valeurs de p. Il y a aussi un état de rigueur, d'attention et de vigilance à propos de certains effets possibles impliqués dans la procédure d'induction scientifique ... et même si à mon avis, tout ce que vous déclarez est à peu près vrai, voici quelques-unes de mes opinions sur les raisons pour lesquelles nous avons des garanties sur les connaissances que nous produisons:

  • Premièrement, d'une manière générale, une conclusion ne doit pas être tirée uniquement sous l'argument d'une valeur p inférieure à un seuil donné.

  • Deuxièmement, à ma connaissance, les arguments du type "plus de la moitié des résultats scientifiques publiés sont erronés" sont pertinents et intéressants, mais sont calculés sur la base de valeurs p approximativement égales à 0,05 (voir par exemple Confusion concernant les valeurs p et le taux de fausses découvertes ) . Pour des valeurs de p inférieures, l'effet est bien inférieur à celui annoncé et en pratique, il n'est pas rare d'obtenir des valeurs de p bien inférieures à 0,05. De plus, plusieurs fois une hypothèse donnée est confirmée par plusieurs sous-hypothèses, ce qui réduit encore les effets annoncés.

  • Troisièmement, la question de la reproductibilité est authentique mais est également un problème qui doit être traité par le statisticien en identifiant et en traitant les effets de confusion, les conceptions de groupe ... et cela peut être très bien fait si cela est fait avec expertise et rigueur.

  • Enfin, si je comprends bien, une étude statistique archétypale doit plus ou moins reposer sur les 5 étapes successives suivantes:

    Formulate one or a few hypotheses
    Design the corresponding study
    Acquire the data
    Analyse the data
    Make conclusions about the above hypotheses (and only these ones)
    

    Cette ligne directrice générale nous empêche de faire des expéditions de pêche comme outil pour produire des conclusions générales.

Pour conclure, je dirais que votre intention de nous protéger contre les mauvaises conclusions scientifiques en dépassant les seuils p est un peu illusoire. Je préférerais nous protéger des mauvaises conclusions scientifiques en assurant et en encourageant des analyses averties et correctes (et j'aimerais penser que c'est une raison pour laquelle tant de personnes qualifiées sont là pour aider les autres sur ce site).

peuhp
la source
2
Je ne pense pas que cela aide à devenir défensif. La question actuelle de l'irreproductibilité en science n'est pas seulement "intéressante", elle est à un point critique et a été sur la couverture de Nature et même de The Economist, depuis qu'il faut croire à une étude particulière (ou même à l'efficacité d'un médicament approuvé) ) n'est désormais pas mieux qu'un tirage au sort, malgré des milliards de dollars investis.
Kelvin
6
Je conviens qu'une crise existe. Mon point est que vous pouvez inspecter la qualité de la pièce. Tous les papiers ne sont pas de la même qualité et d'après mon expérience, il est parfois facile de pointer du papier défectueux. Je ne nie pas le problème, je nie la solution: il suffit de produire une analyse appropriée :)
peuhp
Ok, merci, je respecte votre réponse. Mais toujours d'un point de vue statistique, et quelle que soit la qualité des expériences, nous ne pouvons jamais contrôler le taux global de fausses découvertes sans appliquer une telle correction, n'est-ce pas?
Kelvin
0

Est-il possible de contrôler le taux de fausses découvertes sans appliquer une telle correction?

100aa

N'oubliez pas que les taux d'erreur (fréquentiste) ne concernent pas du tout les probabilités d'une hypothèse testée par un test individuel, mais comme des méthodes pour effectuer des tests avec des taux d'échec à long terme garantis. La correction pour les comparaisons multiples est une autre méthode pour garantir les taux d'échec à long terme: une pour construire des méthodes composées qui contiennent plusieurs tests de sorte qu'un certain taux d'échec garanti à long terme pour le composé soit valide.

Si vous effectuez une seule expérience avec 100 tests et déclarez que 5 d'entre eux ont parlé contre le nul, affirmant ainsi que vous avez observé un résultat réel, personne ne sera impressionné, sachant qu'en moyenne, parmi 100 tests de vrais nulls, 5% rejeter; la méthode que vous avez employée, "effectuer 100 tests et signaler si l'un d'entre eux atteint le seuil de 5%", a un taux d'échec supérieur à 5%. Ainsi, vous pouvez choisir de contrôler les comparaisons multiples et signaler que, par exemple, 2 tests sur 100 avaient des valeurs de p inférieures à (5/100 == 0,05)%. Vous utilisez maintenant une méthode qui présente à nouveau un taux d'échec garanti (pour l'erreur de rapport d'au moins un test significatif même si aucune hypothèse n'est fausse) de 5%.

a, seuils non corrigés). En revanche, si tout le monde testait toujours 100 hypothèses réelles par étude et n'appliquait pas FEW, le nombre d'expériences rapportant des effets significatifs dépasserait le taux d'erreur garanti de 5%. (Contrairement au FDR / False Detection Rate, qui n'est pas une méthode qui garantit le taux de rapport de tout test significatif dans une étude de plusieurs tests d'hypothèses vraies.)

jona
la source
6
Ce que vous appelez «taux de fausses découvertes» dans votre premier paragraphe n'est pas ce que l'on appelle «taux de fausses découvertes».
amibe dit Réintégrer Monica le