Mon programme de statistiques applique à la fois les procédures Benjamini & Hochberg (1995) et Benjamini & Yekutieli (2001). J'ai fait de mon mieux pour lire le dernier article, mais il est assez mathématiquement dense et je ne suis pas raisonnablement certain de comprendre la différence entre les procédures. D'après le code sous-jacent de mon programme de statistiques, je constate qu'elles sont bien différentes et que ce dernier inclut une quantité q dont j'ai déjà parlé à propos de FDR, mais que je ne comprends pas vraiment.
Y a-t-il une raison de préférer la procédure Benjamini & Hochberg (1995) à la procédure Benjamini & Yekutieli (2001)? Ont-ils des hypothèses différentes? Quelles sont les différences pratiques entre ces approches?
Benjamini, Y. et Hochberg, Y. (1995). Contrôler le taux de fausse découverte: une approche pratique et puissante pour les tests multiples. Journal de la Société royale de statistique, série B, 57, 289–300.
Benjamini, Y. et Yekutieli, D. (2001). Le contrôle du taux de fausse découverte dans plusieurs tests sous dépendance. Annals of Statistics 29, 1165-1188.
Le document de 1999 mentionné dans les commentaires ci-dessous: Yekutieli, D., et Benjamini, Y. (1999). Taux de détection erroné basé sur le rééchantillonnage contrôlant plusieurs procédures de test pour des statistiques de test corrélées. Journal of Statistical Planning and Inference, 82 (1), 171-196.
la source
Réponses:
Benjamini et Hochberg (1995) ont introduit le taux de fausse découverte. Benjamini et Yekutieli (2001) ont prouvé que l'estimateur est valable sous certaines formes de dépendance. La dépendance peut survenir de la manière suivante. Considérons la variable continue utilisée dans un test t et une autre variable corrélée à celle-ci; par exemple, vérifier si l'IMC diffère dans deux groupes et si le tour de taille diffère dans ces deux groupes. Comme ces variables sont corrélées, les valeurs p résultantes le seront également. Yekutieli et Benjamini (1999) ont développé une autre procédure de contrôle du FDR, qui peut être utilisée sous dépendance générale en rééchantillonnant la distribution nulle. Étant donné que la comparaison porte sur la distribution de permutation nulle, plus le nombre total de vrais positifs augmente, plus le procédé devient conservateur. Il s'avère que BH 1995 est également conservateur lorsque le nombre de vrais positifs augmente. Pour améliorer cela, Benjamini et Hochberg (2000) ont introduit la procédure adaptative de FDR. Cette estimation nécessaire d'un paramètre, la proportion nulle, est également utilisée dans l'estimateur pFDR de Storey. Storey donne des comparaisons et affirme que sa méthode est plus puissante et souligne le caractère conservateur de la procédure de 1995. Storey a également des résultats et des simulations sous dépendance.
Tous les tests ci-dessus sont valables sous indépendance. La question est de savoir à quel type de rupture par rapport à l'indépendance ces estimations peuvent porter.
Ma pensée actuelle est que si vous ne vous attendez pas à trop de vrais positifs, la procédure BY (1999) est pratique car elle intègre des fonctionnalités de distribution et de dépendance. Cependant, je ne suis pas au courant d'une implémentation. La méthode de Storey a été conçue pour de nombreux vrais positifs avec une certaine dépendance. BH 1995 offre une alternative au taux d'erreur familial, mais il reste prudent.
Benjamini, Y et Y Hochberg. Sur le contrôle adaptatif de la fréquence de découverte fausse dans plusieurs tests avec des statistiques indépendantes. Journal of Educational and Behavioral Statistics, 2000.
la source
p.adjust n'est pas une erreur pour BY. La référence est faite au théorème 1.3 (preuve dans la section 5 à la p.1182) dans le document:
Benjamini, Y. et Yekutieli, D. (2001). Le contrôle du taux de fausse découverte dans plusieurs tests sous dépendance. Annals of Statistics 29, 1165-1188.
Comme cet article traite de plusieurs ajustements, la référence sur la page d’aide (au moment de la rédaction) pour p.adjust () est quelque peu obscure. La méthode est garantie pour contrôler FDR, au taux indiqué, dans la structure de dépendance la plus générale. Vous trouverez des commentaires informatifs dans les diapositives de Christopher Genovese à l'adresse suivante: www.stat.cmu.edu/~genovese/talks/hannover1-04.pdf. Notez le commentaire de la diapositive 37, faisant référence à la méthode du théorème 1.3 du document BY 2001 [méthode = 'BY' avec p.adjust ()] que: "Malheureusement, c'est typiquement très conservateur, parfois même plus que Bonferroni."
Exemple numérique:
method='BY'
vsmethod='BH'
Ce qui suit compare method = 'BY' avec method = 'BH', à l'aide de la fonction p.adjust () de R, pour les valeurs p de la colonne 2 du tableau 2 de l'article de Benjamini et Hochberg (2000):
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] pval 0.8563 0.6028 0.4401 0.4200 0.3864 0.3689 0.3116 0.2352 0.2096 adj='BH 0.8563 0.6211 0.4676 0.4606 0.4379 0.4325 0.3784 0.2962 0.2741 adj='BY' 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] pval 0.1939 0.1587 0.1437 0.1003 0.0823 0.0791 0.0659 0.0580 0.0557 adj='BH 0.2637 0.2249 0.2125 0.1549 0.1332 0.1332 0.1179 0.1096 0.1096 adj='BY' 1.0000 0.9260 0.8751 0.6381 0.5485 0.5485 0.4856 0.4513 0.4513 [,19] [,20] [,21] [,22] [,23] [,24] [,25] [,26] [,27] pval 0.0549 0.0468 0.0465 0.0410 0.0204 0.0096 0.0090 0.0075 0.0040 adj='BH 0.1096 0.1060 0.1060 0.1060 0.0577 0.0298 0.0298 0.0283 0.0172 adj='BY' 0.4513 0.4367 0.4367 0.4367 0.2376 0.1227 0.1227 0.1164 0.0707 [,28] [,29] [,30] [,31] [,32] [,33] [,34] pval 0.0028 0.0020 0.0018 0e+00 0e+00 0e+00 0 adj='BH 0.0137 0.0113 0.0113 2e-04 2e-04 2e-04 0 adj='BY' 0.0564 0.0467 0.0467 7e-04 7e-04 7e-04 0
la source