Le célèbre article de Benjamini & Hochberg (1995) décrit la procédure d'acceptation / rejet d'hypothèses basée sur l'ajustement des niveaux alpha. Cette procédure a une reformulation équivalente simple en termes de valeurs p ajustées , mais elle n'a pas été discutée dans le document original. Selon Gordon Smyth , il a introduit des valeurs de p ajustées en 2002 lors de la mise p.adjust
en œuvre dans R. Malheureusement, il n'y a pas de citation correspondante, donc il n'a toujours pas été clair pour moi ce que l'on devrait citer si l'on utilise p ajusté en BHp valeurs de .
Il s'avère que la procédure est décrite dans Benjamini, Heller, Yekutieli (2009) :
Une autre façon de présenter les résultats de cette procédure consiste à présenter les valeurs p ajustées . Les valeurs de p ajustées par BH sont définies comme pBH(i)=min{minj≥i{mp(j)j},1}.
Cette formule semble plus compliquée qu'elle ne l'est vraiment. Ça dit:
- Tout d'abord, commandez toutes les valeurs p de petite à grande. Multipliez ensuite chaque valeur p par le nombre total de tests m et divisez-la par son ordre de classement.
- Deuxièmement, assurez-vous que la séquence résultante n'est pas décroissante: si jamais elle commence à décroître, faites le p précédentp égale à la suivante (à plusieurs reprises, jusqu'à ce que la séquence entière devienne non décroissante).
- Si une valeur p finit par être supérieure à 1, rendez-la égale à 1.
Il s'agit d'une reformulation simple de la procédure BH originale de 1995. Il pourrait exister un document antérieur qui introduisait explicitement le concept de valeurs p ajustées BH , mais je n'en connais pas.
Mise à jour. @Zenit a constaté que Yekutieli et Benjamini (1999) décrivaient la même chose déjà en 1999:
Maintenant, comprenons cela. L'idée sous-jacente (bayésienne) est que les observations proviennent d'un mélange de deux distributions:
Ce qui est observé est le mélange de ces deux:
Les définitions (bayésiennes) sont:
Comme indiqué ci-dessous, Fdr est équivalent au Benjamini hocherg FDR lorsqueπ0≈ 1 (ce qui est le cas dans la plupart des études bioinformatiques)
(Basé sur l' inférence statistique de l'ère informatique d' Efron et Tibshirani )
la source