Quelle est la formule de la valeur de p ajustée de Benjamini-Hochberg?

14

Je comprends la procédure et ce qu'elle contrôle. Quelle est donc la formule de la valeur de p ajustée dans la procédure BH pour les comparaisons multiples?


Tout à l'heure, j'ai réalisé que le BH d'origine ne produisait pas de valeurs de p ajustées, mais seulement la condition de (non) rejet: https://www.jstor.org/stable/2346101 . Gordon Smyth a introduit des valeurs p BH ajustées en 2002 de toute façon, donc la question reste d'actualité. Il est implémenté en R comme p.adjustavec la méthode BH.

Pyromane
la source

Réponses:

6

Le célèbre article de Benjamini & Hochberg (1995) décrit la procédure d'acceptation / rejet d'hypothèses basée sur l'ajustement des niveaux alpha. Cette procédure a une reformulation équivalente simple en termes de valeurs p ajustées , mais elle n'a pas été discutée dans le document original. Selon Gordon Smyth , il a introduit des valeurs de p ajustées en 2002 lors de la mise p.adjusten œuvre dans R. Malheureusement, il n'y a pas de citation correspondante, donc il n'a toujours pas été clair pour moi ce que l'on devrait citer si l'on utilise p ajusté en BHp valeurs de .

Il s'avère que la procédure est décrite dans Benjamini, Heller, Yekutieli (2009) :

Une autre façon de présenter les résultats de cette procédure consiste à présenter les valeurs p ajustées . Les valeurs de p ajustées par BH sont définies comme

p(i)BH=min{minji{mp(j)j},1}.

Cette formule semble plus compliquée qu'elle ne l'est vraiment. Ça dit:

  1. Tout d'abord, commandez toutes les valeurs p de petite à grande. Multipliez ensuite chaque valeur p par le nombre total de tests m et divisez-la par son ordre de classement.
  2. Deuxièmement, assurez-vous que la séquence résultante n'est pas décroissante: si jamais elle commence à décroître, faites le p précédentp égale à la suivante (à plusieurs reprises, jusqu'à ce que la séquence entière devienne non décroissante).
  3. Si une valeur p finit par être supérieure à 1, rendez-la égale à 1.

Il s'agit d'une reformulation simple de la procédure BH originale de 1995. Il pourrait exister un document antérieur qui introduisait explicitement le concept de valeurs p ajustées BH , mais je n'en connais pas.


Mise à jour. @Zenit a constaté que Yekutieli et Benjamini (1999) décrivaient la même chose déjà en 1999:

entrez la description de l'image ici

amibe dit réintégrer Monica
la source
C'est la réponse que j'attendais, +1. Je me souviens avoir lu sur l'implémentation de Gordon Smyth de la valeur p ajustée et ne pas savoir qui citer, cool de voir qu'il y a une citation "canon" à cela.
Firebug
1
Je pense qu'il existe une référence encore plus ancienne: Yekutieli et Benjamini (1999) (version pdf disponible ici ). La définition 2.4 décrit comment la procédure FDR originale de 1995 peut être reformulée en termes de valeurs de p ajustées. Nous remercions cet article de blog où j'ai trouvé des informations à ce sujet.
Zenit
@Zenit Oh wow! Super trouvaille! Je devrais mettre à jour ma réponse.
amibe dit Réintégrer Monica
Merci pour la source @Zenit! C'est un peu bizarre de voir comment une telle méthode statistique omniprésente n'a pas de référence bien connue.
Firebug
8

p0pz0N0 p0N

  • FDR (p0)=p0N0N

  • FDR (pi)=min(FDR(pi),FDR(pi+1))


Maintenant, comprenons cela. L'idée sous-jacente (bayésienne) est que les observations proviennent d'un mélange de deux distributions:

  • π0Nf0(z)
  • (1π0)Nf1(z)

Ce qui est observé est le mélange de ces deux:

  • F(z)=π0F0(z)+(1-π0)F1(z)

enter image description here

Les définitions (bayésiennes) sont:

  • Fdr=π0(1-F0(z0))(1-F(z))
  • fdr=π0F0(z0)F(z) (une fraction des densités de queue)

Comme indiqué ci-dessous, Fdr est équivalent au Benjamini hocherg FDR lorsque π01 (ce qui est le cas dans la plupart des études bioinformatiques)

enter image description here

(Basé sur l' inférence statistique de l'ère informatique d' Efron et Tibshirani )

Aditya
la source