J'ai lu ce grand article de David Colquhoun: Une enquête sur le taux de fausses découvertes et la mauvaise interprétation des valeurs de p (2014). En substance, il explique pourquoi le taux de fausses découvertes (FDR) peut atteindre même si nous contrôlons l'erreur de type I avec .
Cependant, je suis toujours confus quant à ce qui se passe si j'applique le contrôle FDR dans le cas de tests multiples.
Disons que j'ai effectué un test pour chacune des nombreuses variables et calculé les valeurs utilisant la procédure de Benjamini-Hochberg. J'ai obtenu une variable significative avec q = 0,049 . Je demande quel est le FDR pour cette conclusion?
Puis-je supposer avec certitude qu'à long terme, si je fais régulièrement une telle analyse, le FDR n'est pas de , mais inférieur à 5 % , parce que j'ai utilisé Benjamini-Hochberg? Cela semble faux, je dirais que la valeur q correspond à la valeur p dans l'article de Colquhoun et son raisonnement s'applique ici aussi, de sorte qu'en utilisant un seuil q de 0,05, je risque de "me ridiculiser" (comme Colquhoun le dit) dans 30 % des cas. Cependant, j'ai essayé de l'expliquer plus formellement et j'ai échoué.
la source
Réponses:
Il se trouve que par coïncidence, j'ai lu ce même article il y a quelques semaines à peine. Colquhoun mentionne plusieurs comparaisons (y compris Benjamini-Hochberg) dans la section 4 lorsqu'il pose le problème, mais je trouve qu'il ne rend pas le problème assez clair - je ne suis donc pas surpris de voir votre confusion.
Le point important à réaliser est que Colquhoun parle de la situation sans aucun ajustement de comparaison multiple. On peut comprendre l'article de Colquhoun comme adoptant la perspective d'un lecteur: il demande essentiellement à quel taux de fausses découvertes (FDR) peut-il s'attendre quand il lit la littérature scientifique, et cela signifie quel est le FDR attendu quand aucun ajustement de comparaison multiple n'a été fait. Des comparaisons multiples peuvent être prises en compte lors de l'exécution de plusieurs tests statistiques dans une étude, par exemple dans un article. Mais personne ne s'ajuste jamais à de multiples comparaisons entre les articles .
Si vous contrôlez réellement le FDR, par exemple en suivant la procédure de Benjamini-Hochberg (BH), alors il sera contrôlé. Le problème est que l'exécution de la procédure BH séparément dans chaque étude ne garantit pas le contrôle global du FDR.
Non. Si vous utilisez la procédure BH dans chaque article, mais indépendamment dans chacun de vos articles, vous pouvez essentiellement interpréter vos valeurs ajustées BH comme des valeurs p normales , et ce que Colquhoun dit s'applique toujours.p p
Remarques générales
La réponse à la question de Colquhoun sur le FDR attendu est difficile à donner car elle dépend de diverses hypothèses. Si par exemple toutes les hypothèses nulles sont vraies, alors FDR sera100 % 30 %
Je pense que le document est en grande partie raisonnable, mais je n'aime pas qu'il rend certaines affirmations beaucoup trop audacieuses. Par exemple, la première phrase du résumé est:
Ceci est formulé trop fortement et peut en fait être trompeur.
la source
Benjamini & Hochberg définissent le taux de fausses découvertes de la même manière que moi, comme la fraction des tests positifs qui sont des faux positifs. Donc, si vous utilisez leur procédure pour des comparaisons multiples, vous contrôlez correctement le FDR. Il convient de noter, cependant, qu'il existe de nombreuses variantes de la méthode BH. Les séminaires de Benjamini à Berkeley sont sur Youtube, et valent bien la peine d'être regardés:
Je ne sais pas pourquoi @amoeba dit "Ceci est formulé trop fortement et peut en fait être trompeur". Je serais intéressé de savoir pourquoi il / elle pense cela. L'argument le plus convaincant provient des tests t simulés (section 6). Cela imite ce que presque tout le monde fait dans la pratique et cela montre que si vous observez P proche de 0,047 et prétendez avoir fait une découverte, vous vous tromperez au moins 26% du temps. Qu'est-ce qui peut mal tourner?
Bien sûr, je ne devrais pas décrire cela au minimum. C'est ce que vous obtenez si vous supposez qu'il y a 50% de chances qu'il y ait un effet réel. Bien sûr, si vous supposez que la plupart de vos hypothèses sont correctes à l'avance, vous pouvez obtenir un FDR inférieur à 26%, mais pouvez-vous imaginer l'hilarité qui saluerait une affirmation selon laquelle vous aviez fait une découverte sur la base de l'hypothèse que vous étiez sûr à 90% à l'avance que votre conclusion serait vraie. 26% est le FDR minimum étant donné que ce n'est pas une base raisonnable pour l'inférence de supposer une probabilité antérieure supérieure à 0,5.
Étant donné que les intuitions ne tiennent souvent pas debout lors des tests, il se pourrait bien qu'il n'y ait que 10% de chances qu'une hypothèse particulière soit vraie, et dans ce cas, le FDR serait de 76% désastreux.
Il est vrai que tout cela dépend de l'hypothèse nulle étant qu'il y a une différence nulle (le soi-disant point nul). D'autres choix peuvent donner des résultats différents. Mais le point nul est ce que presque tout le monde utilise dans la vie réelle (même si le peut ne pas en être conscient). De plus, le point nul me semble être une chose tout à fait appropriée à utiliser. On objecte parfois que les vraies différences ne sont jamais exactement nulles. Je ne suis pas d'accord. Nous voulons savoir si nos résultats ne se distinguent pas du cas où les deux groupes reçoivent des traitements identiques, de sorte que la vraie différence est exactement nulle. Si nous décidons que les données ne sont pas compatibles avec cette vue, nous continuons à estimer la taille de l'effet. et à ce moment-là, nous jugeons séparément si l'effet, bien que réel, est suffisamment important pour être important dans la pratique.Le blog de Deborah Mayo .
@amoeba Merci pour votre réponse.
Ce que la discussion sur le blog de Mayo montre est principalement que Mayo n'est pas d'accord avec moi, même si elle n'a pas clairement expliqué pourquoi, du moins pour moi). Stephen Senn souligne correctement que vous pouvez obtenir une réponse différente si vous postulez une distribution antérieure différente. Cela ne me semble intéressant que pour les bayésiens subjectifs.
Cela n'a certainement rien à voir avec la pratique quotidienne qui suppose toujours un point nul. Et comme je l'ai expliqué, cela me semble être une chose parfaitement sensée à faire.
De nombreux statisticiens professionnels sont parvenus aux mêmes conclusions que moi. Essayez Sellke & Berger et Valen Johnson (références dans mon article). Il n'y a rien de très controversé (ou très original) dans mes affirmations.
Votre autre point, à propos de l'hypothèse d'un 0,5 antérieur, ne me semble pas du tout être une hypothèse. Comme je l'ai expliqué ci-dessus, tout ce qui dépasse 0,5 serait inacceptable dans la pratique. Et tout ce qui est inférieur à 0,5 rend le taux de fausses découvertes encore plus élevé (par exemple, 76% si le précédent est 0,1). Par conséquent, il est parfaitement raisonnable de dire que 26% est le taux minimum de fausses découvertes auquel vous pouvez vous attendre si vous observez P = 0,047 dans une seule expérience.
J'ai réfléchi davantage à cette question. Ma définition du FDR est la même que celle de Benjamini - la fraction des tests positifs qui sont faux. Mais elle s'applique à un problème bien différent, l'interprétation d'un seul test. Avec le recul, il aurait peut-être été préférable de choisir un terme différent.
Dans le cas d'un seul test, B&H laisse la valeur P inchangée, donc il ne dit rien sur le taux de fausses découvertes dans le sens où j'utilise le terme.
es bien sûr, vous avez raison. Benjamini & Hochberg, et d'autres personnes qui travaillent sur des comparaisons multiples, visent uniquement à corriger le taux d'erreur de type 1. Ils se retrouvent donc avec une valeur P «correcte». Il est soumis aux mêmes problèmes que toute autre valeur P. Dans mon dernier article, j'ai changé le nom de FDR en False Positive Risk (FPR) afin d'éviter ce malentendu.
Nous avons également écrit une application Web pour effectuer certains calculs (après avoir remarqué que peu de gens téléchargent les scripts R que nous fournissons). C'est à https://davidcolquhoun.shinyapps.io/3-calcs-final/ Toutes les opinions à ce sujet sont les bienvenues (veuillez d'abord lire l'onglet Notes).
PS La calculatrice Web a maintenant une nouvelle (permanente, j'espère) sur http://fpr-calc.ucl.ac.uk/ Shiny.io est facile à utiliser, mais très cher si quelqu'un utilise réellement l'application :-(
Je suis revenu à cette discussion, maintenant que mon deuxième article sur le sujet est sur le point de paraître dans Royal Society Open Science. C'est à https://www.biorxiv.org/content/early/2017/08/07/144337
Je me rends compte que la plus grande erreur que j'ai commise dans le premier article a été d'utiliser le terme "taux de fausses découvertes (FDR)". Dans le nouvel article, je précise que je ne dis rien sur le problème des comparaisons multiples. Je ne traite que de la question de savoir comment interpréter la valeur P observée dans un seul test non biaisé.
Dans la dernière version, je fais référence à la probabilité que le résultat soit le risque de faux positif (FPR) plutôt que le FDR, dans l'espoir de réduire la confusion. Je préconise également l'approche bayésienne inversée - préciser la probabilité antérieure qui serait nécessaire pour assurer un FPR de, disons, 5%. Si vous observez P = 0,05, cela revient à 0,87. En d'autres termes, vous devriez être presque (87%) sûr qu'il y avait un effet réel avant de faire l'expérience pour atteindre un FPR de 5% (ce que la plupart des gens croient encore, à tort, p = 0,05 signifie).
la source
Une grande partie de la confusion est que, malgré ses commentaires contraires ici, Colquhoun ne définit pas le FDR de la même manière que Benjamini-Hochberg. Il est regrettable que Colquhoun ait tenté de forger un terme sans d'abord vérifier si le terme n'avait pas déjà une définition bien établie et différente. Pour aggraver les choses, Colquhoun a défini le FDR précisément de la manière dont le FDR conventionnel a souvent été mal interprété.
Dans sa réponse ici, Colquhoun définit le FDR comme «la fraction des tests positifs qui sont faux». Cela est similaire à ce que Benjamini-Hochberg définit comme le FDP (proportion de fausses découvertes, à ne pas confondre avec le taux de fausses découvertes). Benjamini-Hochberg définit le FDR comme la VALEUR ATTENDUE du FDP, avec une stipulation spéciale que le FDP est considéré comme 0 lorsqu'il n'y a pas de tests positifs (stipulation qui fait que le FDR est égal au FWER lorsque toutes les valeurs nulles sont vraies, et évite les valeurs indéfinissables dues à la division par zéro).
Pour éviter toute confusion, je suggère de ne pas s'inquiéter des détails dans l'article de Colquhoun, et de prendre simplement à cœur le point de vue d'ensemble (que de nombreux autres ont également fait valoir) que le niveau alpha ne correspond pas directement à la proportion de tests importants qui sont des erreurs de type I (qu'il s'agisse des tests significatifs dans une seule étude ou dans plusieurs études combinées). Cette proportion dépend non seulement de l'alpha, mais aussi de la puissance et de la proportion d'hypothèses nulles vérifiées qui sont vraies.
la source