36

Benjamini et Hochberg ont mis au point la première méthode (et toujours la plus largement utilisée, selon moi) pour contrôler le taux de fausses découvertes (FDR).

Je veux commencer par un groupe de valeurs P, chacune pour une comparaison différente, et décider quelles sont suffisamment basses pour être appelées une "découverte", en contrôlant le FDR à une valeur spécifiée (par exemple 10%). Une des hypothèses de la méthode habituelle est que les comparaisons sont soit indépendantes, soit "dépendantes", mais je ne peux pas comprendre exactement ce que cette phrase signifie dans le contexte de l'analyse d'un ensemble de valeurs P.

multiple-comparisons non-independent false-discovery-rate Harvey Motulsky
la source

1

Merci d'avoir attribué la prime à ma réponse, Harvey! Diriez-vous que cela résout ce problème pour vous ou cherchez-vous une exposition plus détaillée? J'ai remarqué que vous n'avez pas encore accepté de réponse, c'est pourquoi j'aimerais apporter des éclaircissements. Merci. Peut-être pouvez-vous commenter ou éditer votre Q pour clarifier ce que vous aimeriez encore avoir clarifié.

amibe dit de réintégrer Monica

2

@amibe. La date limite pour la prime était sur moi, et votre réponse était de loin la meilleure. Franchement, je ne me suis jamais rendu compte à ce moment-là que donner une prime n'acceptait pas aussi la réponse. Mais je sais que ceux-ci sont distincts (je vais blâmer le décalage horaire). Mais une réponse complète doit vraiment inclure des exemples réalistes dans lesquels l'ensemble de valeurs P a une dépendance positive ou non. J'attendrais d'accepter une réponse pendant une semaine dans l'espoir que quelqu'un puisse donner les deux types d'exemples, le sens est donc clair.

Harvey Motulsky

Ce n'est probablement pas vraiment un exemple satisfaisant, mais il est très facile de trouver des valeurs p avec et sans dépendance positive si nous pensons effectuer des tests unilatéraux sur des variables corrélées. Imaginez que je teste si A = 0 et aussi si B = 0 par rapport à des alternatives unilatérales (A> 0 et B> 0). Imaginez en outre que B dépend de A. Par exemple, imaginez que je veuille savoir si une population contient plus de femmes que d’hommes et également si elle contient plus d’ovaires que de testicules. Connaître clairement la valeur p de la première question change notre attente de la valeur p pour la deuxième question

Jacob Socolar

Merci, Harvey. J'espère qu'il était clair que je n'essayais pas de vous pousser à accepter ma réponse (!!) mais plutôt de clarifier le type de réponse que vous recherchez dans ce fil et ce que vous aimeriez toujours avoir clarifié. Je ne suis pas vraiment un expert sur ce sujet, j'essaie juste de le comprendre.

Amibe dit de réintégrer Monica

Les deux valeurs de p changent dans le même sens et il s'agit de PRD. Mais si je teste plutôt la deuxième hypothèse selon laquelle la population 2 a plus de testicules que d'ovaires, nos attentes pour la deuxième valeur p diminuent à mesure que la première valeur p augmente. Ce n'est pas PRD.

Jacob Socolar

20

De votre question , et en particulier vos commentaires à d' autres réponses, il me semble que vous êtes surtout confus au sujet de la « grande image » ici: à savoir, qu'est - ce que la « dépendance positive » se réfèrent dans ce contexte du tout - contrairement à ce que est la signification technique de la condition PRDS. Je vais donc parler de la grande image.

La grande image

Imaginez que vous testez hypothèses nulles et que toutes sont vraies. Chacune des valeurs est une variable aléatoire; répéter l'expérience encore et encore générerait une chaque fois, de sorte que l'on peut parler d'une distribution de valeurs (sous la valeur nulle). Il est bien connu que pour tout test, une distribution de valeurs sous le zéro doit être uniforme; ainsi dans le cas du test de multiplte, toutes les distributions marginales de valeurs seront uniformes. $N$ $N$ $p$ $p$ $p$ $p$ $N$ $p$

Si toutes les données et tous tests sont indépendants l'un de l'autre, ladistribution dimensionnelleconjointedesvaleurs sera également uniforme. Ce sera le cas, par exemple, dans une situation classique de "jelly-haricot" où un ensemble d'éléments indépendants est testé: $N$ $N$ $p$

Cependant, il n'est pas nécessaire que ce soit comme ça. Toute paire de valeurs peut en principe être corrélée, positivement ou négativement, ou dépendre de manière plus compliquée. Envisagez de tester toutes les différences de moyenne par paire entre quatre groupes; ceci est $p$ $N=4\cdot 3/2=6$ tests. Chacune des six valeurs est distribuée uniformément. Mais ils sont tous positivement corrélés: si (sur une tentative donnée) le groupe A a par hasard une moyenne particulièrement basse, alors la comparaison A-vs-B pourrait donner une faible valeur (ce serait un faux positif). Mais dans cette situation, il est probable que A-vs-C, ainsi que A-vs-D, produiront également un faible $p$ $p$ $p$ -valeurs. Donc, les valeurs sont évidemment non indépendantes et de plus, elles sont positivement corrélées les unes aux autres. $p$

C’est, de manière informelle, à quoi "dépendance positive" se réfère.

Cela semble être une situation courante dans les tests multiples. Un autre exemple consisterait à tester les différences entre plusieurs variables corrélées les unes aux autres. Obtenir une différence significative dans l’un d’eux augmente les chances d’obtenir une différence significative dans un autre.

Il est difficile de trouver un exemple naturel dans lequel les valeurs seraient "dépendantes négativement". @ user43849 a remarqué dans les commentaires ci-dessus que, pour les tests unilatéraux, il est facile: $p$

Imaginez que je teste si A = 0 et aussi si B = 0 par rapport à des alternatives unilatérales (A> 0 et B> 0). Imaginez en outre que B dépend de A. Par exemple, imaginez que je veuille savoir si une population contient plus de femmes que d’hommes et également si elle contient plus d’ovaires que de testicules. Connaître clairement la valeur p de la première question modifie notre attente de la valeur p pour la seconde. Les deux valeurs de p changent dans le même sens et il s'agit de PRD. Mais si je teste plutôt la deuxième hypothèse selon laquelle la population 2 a plus de testicules que d'ovaires, nos attentes pour la deuxième valeur p diminuent à mesure que la première valeur p augmente. Ce n'est pas PRD.

Mais j’ai été jusqu’à présent incapable de trouver un exemple naturel avec un point nul.

Maintenant, la formulation mathématique exacte de "dépendance positive" garantissant la validité de la procédure de Benjamini-Hochberg est plutôt délicate. Comme mentionné dans d'autres réponses, la référence principale est Benjamini & Yekutieli 2001 ; ils montrent que la propriété de PRDS ("dépendance de régression positive pour chacun d'un sous-ensemble") implique une procédure de Benjamini-Hochberg. C'est une forme détendue de la propriété PRD ("dépendance de régression positive"), ce qui signifie que PRD implique PRDS et implique donc également la procédure de Benjamini-Hochberg.

Pour les définitions de PRD / PRDS, voir la réponse de +1 utilisateur43849 (+1) et le papier de Benjamini & Yekutieli. Les définitions sont plutôt techniques et je n’en ai pas une bonne compréhension intuitive. En fait, B & Y mentionne également plusieurs autres concepts connexes: positivité totale à plusieurs variables d'ordre 2 (MTP2) et association positive. Selon B & Y, ils sont liés comme suit (le diagramme est le mien):

$\hskip{10em}$

MTP2 implique un PRD qui implique un PRDS qui garantit l'exactitude de la procédure BH. PRD implique également PA, mais PA PRDS. $\ne$

l'amibe dit de réintégrer Monica
la source

Est- ce qu'un exemple de dépendance négative être post hoc tests par paire suivants, disons, un sens unique ANOVA de trois groupes, où

, mais

, tandis que

et

, alors que

est moins susceptible de rejeter (car sous

μ_{A} < μ_{B} < μ_{C}

$\mu_{A} < \mu_{B} < \mu_{C}$

{\bar{x}}_{B} < μ_{B}

$\bar{x}_{B} < \mu_{B}$

{\bar{x}}_{A} \approx μ_{A}

$\bar{x}_{A}\approx \mu_{A}$

{\bar{x}}_{C} \approx μ_{C}

$\bar{x}_{C}\approx \mu_{C}$

p_{A vs. B}

$p_{A\text{ vs. }B}$

H_{0}

$H_{0}$

), mais en raison de la dépendance

estplussusceptible de rejeter?

| {\bar{x}}_{A} - {\bar{x}}_{B} | < | {\bar{x}}_{B} - {\bar{x}}_{C} |

$|\bar{x}_{A}-\bar{x}_{B}| < |\bar{x}_{B}-\bar{x}_{C}|$

p_{B vs. C}

$p_{B\text{ vs. }C}$

Alexis

1

@Alexis Je pensais moi-même dans ce sens, mais je ne pense pas que cela fonctionne, car nous devons examiner ce qui se passe sous le zéro . Dans ce cas, le zéro est que

, votre raisonnement est donc rompu.

μ_{A} = μ_{B} = μ_{C}

$\mu_A=\mu_B=\mu_C$

amibe dit de réintégrer Monica

Ainsi, s’il est difficile de penser à des situations de dépendance négatives, la procédure Benjamini-Hochberg est valable pour des situations telles que les tests par paires post-hoc suivant le rejet d’une hypothèse nulle concernant des groupes indépendants (p. Ex., On-way ANOVA, Q de Cochran, Kruskal- Wallis, etc.)?

Alexis

@ Alexis Je crois que c'est correct, oui. J'essaie toujours de trouver un exemple naturel de dépendance négative ...

Amoeba dit Rétablir Monica

ROCHE! Vas-y meuf! :) (Pour des significations sans sexe du mot "fille";).

Alexis

18

Bonne question! Faisons un pas en arrière et comprenons ce que Bonferroni a fait et pourquoi il était nécessaire que Benjamini et Hochberg développent une alternative.

Il est devenu nécessaire et obligatoire au cours des dernières années d’effectuer une procédure appelée correction d’essais multiples. Cela est dû au nombre croissant de tests effectués simultanément avec les sciences à haut débit, notamment en génétique avec l'avènement des études d'association du génome entier (GWAS). Excusez ma référence à la génétique, car c’est mon domaine de travail. Si nous effectuons des tests 1.000.000 simultanément à , nous nous attendons à faux positifs. C'est ridiculement grand, et nous devons donc contrôler le niveau auquel l'importance est évaluée. La correction de bonferroni, c'est-à-dire la division du seuil d'acceptation (0,05) par le nombre de tests indépendants $P = 0.05$ $50,000$ $(0.05/M)$ corrige le taux d'erreur de la famille ( $FWER$ ).

Ceci est vrai parce que le FWER est lié au taux d'erreur de test sage ( ) par l'équation . C'est-à-dire que 100% moins 1 soustrait le taux d'erreur de test indiqué à la puissance du nombre de tests indépendants effectués. En supposant que $TWER$ $FWER = 1 - (1 - TWER)^M$ donne $(1- 0.05)^{1/M} = 1-\frac{0.05}{M}$ , qui est la valeur d'acceptation P ajustée pour M des tests complètement indépendants. $TWER \approx \frac{0.05}{M}$

Le problème que nous rencontrons maintenant, de même que Benjamini et Hochberg, est que tous les tests ne sont pas complètement indépendants. Ainsi, la correction de Bonferroni, bien que robuste et flexible, est une surcorrection . Prenons le cas de la génétique où deux gènes sont liés dans un cas appelé déséquilibre de liaison; c'est-à-dire que lorsqu'un gène a une mutation, un autre est plus susceptible d'être exprimé. Ce ne sont évidemment pas des tests indépendants, bien que dans la correction de bonferroni ils soient supposés être . C’est ici que nous commençons à voir que la division de la valeur P par M crée un seuil artificiellement bas en raison de tests supposés indépendants qui s’influencent réellement, créant par conséquent un M trop grand pour notre situation réelle, où les choses ne se pas indépendant.

La procédure suggérée par Benjamini et Hochberg, et complétée par Yekutieli (et bien d’autres) est plus libérale que Bonferroni et, en fait, la correction de Bonferroni n’est utilisée que dans la très vaste des études. En effet, dans le FDR, nous supposons une certaine interdépendance des tests et donc un M trop grand et irréaliste et qui supprime les résultats qui nous intéressent en réalité. Par conséquent, dans le cas de 1000 tests qui ne sont pas indépendants, le vrai M ne serait pas 1000, mais quelque chose de plus petit à cause des dépendances. Ainsi, quand on divise 0,05 par 1000, le seuil est trop strict et évite certains tests qui pourraient être intéressants.

Je ne sais pas si vous vous souciez de la mécanique derrière le contrôle de la dépendance, mais si vous le faites, j'ai lié le document Yekutieli à titre de référence. Je vais également attacher quelques autres choses pour votre information et votre curiosité.

J'espère que cela a aidé d'une certaine manière, si j'ai mal interprété quelque chose, s'il vous plaît faites le moi savoir.

~ ~ ~ ~

Les références

Article de Yekutieli sur les dépendances positives - http://www.math.tau.ac.il/~ybenja/MyPapers/benjamini_yekutieli_ANNSTAT2001.pdf

(voir 1.3 - Le problème.)

Explication de Bonferroni et autres sujets d'intérêt - Revues de Nature Genetics. Tests de puissance et de signification statistiques dans les études génétiques à grande échelle - Pak C Sham et Shaun M Purcell

(voir encadré 3.)

http://en.wikipedia.org/wiki/Familywise_error_rate

MODIFIER:

Dans ma réponse précédente, je ne définissais pas directement la dépendance positive, ce qui était ce qui était demandé. Dans l'article de Yekutieli, la section 2.2s'intitule Dépendance positive, et je le suggère car elle est très détaillée. Cependant, je pense que nous pouvons le rendre un peu plus succinct.

Dans un premier temps, le document commence par parler de dépendance positive, en l’utilisant comme un terme vague interprétable mais non spécifique. Si vous lisez les preuves, ce qui est mentionné en tant que dépendance positive est appelé PRSD, défini précédemment par "Dépendance de régression positive pour chacune à partir d'un sous-ensemble ". est le sous-ensemble de tests qui prend en charge correctement l'hypothèse nulle (0). Le PRDS est alors défini comme suit. $I_0$ $I_0$

PRDS

est notre ensemble complet de statistiques de test et est notre ensemble de statistiques de test qui prennent correctement en charge la valeur null. Ainsi, pour que soit PRDS (positivement dépendant) de , la probabilité que soit un élément de (nul) augmente dans un ensemble non décroissant de statistiques de test (éléments de ). $X$ $I_0$ $X$ $I_0$ $X$ $I_0$ $x$ $X$

En interprétant cela, lorsque nous ordonnons nos valeurs du plus bas au plus élevé, la probabilité de faire partie de l'ensemble nul de statistiques de test est la plus faible à la plus petite valeur P et augmente à partir de ce point. Le FDR définit une limite sur cette liste de statistiques de test de telle sorte que la probabilité de faire partie de l'ensemble nul soit de 0,05. C'est ce que nous faisons lorsque nous contrôlons le FDR. $P$

En résumé, la propriété de dépendance positive est réellement la propriété de dépendance de régression positive de l'ensemble de nos statistiques de test par rapport à notre ensemble de statistiques de test nuls vrais, et nous contrôlons un FDR de 0,05; ainsi, à mesure que les valeurs P vont de bas en haut (procédure d’intensification), elles augmentent en probabilité pour faire partie de l’ensemble nul.

Ma réponse précédente dans les commentaires sur la matrice de covariance n'était pas incorrecte, mais un peu vague. J'espère que cela aide un peu plus.

Chris C
la source

6

Merci. Vous donnez un aperçu clair du contrôle des taux d'erreur relatifs à la famille (Bonferroni, etc.) par rapport au contrôle du FDR, mais je ne comprends toujours pas ce que signifie "dépendance positive". Considérez que j'ai 1000 valeurs de P, testant l'expression de 1000 gènes différents en comparant des personnes avec et sans maladie. J'utilise la méthode BH pour décider lesquelles de ces comparaisons sont des "découvertes". Que signifie "dépendance positive" dans ce contexte?

Harvey Motulsky

9

Une note petite mais importante: Bonferroni ne fait aucune hypothèse d’indépendance. En fait, cela couvrira correctement le cas qui s’exclut mutuellement, ce qui, d’une certaine manière, est à peu près aussi indépendant que possible. Il existe une procédure de correction (Sidak) qui présume de l'indépendance et contrôlera plus fortement FWER dans cette hypothèse. Quelques autres aspects de cette réponse pourraient également nécessiter quelques retouches mineures.

Cardinal

2

@ChrisC Je ne comprends toujours pas. "Matrice de covariance entre éléments"? Je commence par une liste de valeurs P et je souhaite déterminer celles qui sont suffisamment basses pour être appelées "découvertes" et qui méritent un suivi (avec le FDR contrôlé). Quels sont les éléments de la matrice de covariance? Supposons que chaque valeur P compare l'expression d'un gène particulier entre groupes et qu'il existe de nombreux gènes de ce type. Pour chaque gène, at test compare les groupes résultant en une valeur de p. Que signifie, dans cette situation, pour "éléments à varier ensemble" ou "corrélations positives entre eux"?

Harvey Motulsky

2

@ChrisC Merci. C'est devenu plus clair, mais je ne comprends toujours pas vraiment ce que cette hypothèse signifie. Tout l’intérêt de connaître l’hypothèse qui sous-tend la méthode est de savoir quand vous risquez de la violer. Il serait donc utile d’énumérer certains scénarios dans lesquels l’hypothèse est fausse. Quand une valeur de P inférieure ne serait-elle pas associée à une probabilité plus élevée que l'hypothèse nulle soit fausse?

Harvey Motulsky

1

Cela ne répond pas à la question.

Alexis

10

J'ai trouvé cette pré-impression utile pour comprendre le sens. Il faut dire que je propose cette réponse non pas en tant qu'expert du sujet, mais en tant que tentative de compréhension pour être contrôlée et validée par la communauté.

Merci à Amoeba pour ses observations très utiles sur la différence entre PRD et PRDS, voir les commentaires.

$p$ $C$ $p$ $C$

$q$ $C$
$r$ $q$ $r$ $q$ $r_i < q_i$ $i$
$r$ $C$

$C$

$p$ $p_1 ... p_{n} < B_1 ... B_n$ $p$ $C$ $B_1 ... B_n$

$p_i$ $p_i$ $p_i$ $p_1 ... p_n$ $p_1 ... p_n$ $p_i$

$p_1 ... p_n$

$p_n$ $p_n < B$ $B$ $p_n < B$ $p_n < B$ $B$

Édité pour ajouter:

Voici un exemple putatif d'un système qui n'est pas PRDS (code R ci-dessous). La logique est que lorsque les échantillons a et b sont très similaires, il est plus probable que leur produit sera atypique. Je suppose que cet effet (et non la non-uniformité des valeurs p sous le zéro pour la (a*b), (c*d)comparaison) entraîne la corrélation négative dans les valeurs p, mais je ne peux pas en être sûr. Le même effet apparaît si nous effectuons un test t pour la deuxième comparaison (plutôt qu'un test de Wilcoxon), mais la distribution des valeurs p n'est toujours pas uniforme, probablement en raison de violations de l'hypothèse de normalité.

ab <- rep(NA, 100000)  # We'll repeat the comparison many times to assess the relationships among p-values.
abcd <- rep(NA, 100000)

for(i in 1:100000){
  a <- rnorm(10)    # Draw 4 samples from identical populations.
  b <- rnorm(10)
  c <- rnorm(10)
  d <- rnorm(10)

  ab[i] <- t.test(a,b)$p.value          # We perform 2 comparisons and extract p-values
  abcd[i] <- wilcox.test((a*b),(c*d))$p.value
}

summary(lm(abcd ~ ab))    # The p-values are negatively correlated

ks.test(ab, punif)    # The p-values are uniform for the first test
ks.test(abcd, punif)   # but non-uniform for the second test.
hist(abcd)

Jacob Socolar
la source

Je suis désolé, mais je ne suis pas vraiment cela.

Harvey Motulsky

Le nouveau dernier paragraphe clarifie-t-il le problème?

Jacob Socolar

@ Amoeba, oui, je pense que tu as raison. Les articles de Yekutieli reliés par des affiches précédentes sont des traitements du PRDS. Autant que je sache, PRD est la même propriété, mais dans toutes les statistiques de test (ou valeurs p), et pas seulement le sous-ensemble correspondant aux valeurs NULL.

Jacob Socolar

1

Oui, vous avez absolument raison. Édition maintenant.

Jacob Socolar

1

Exemple intéressant, mais l’effet est super-faible: j’obtiens un coefficient de corrélation (entre ab et abcd) d’environ -0.03 ... Mais je ne comprends pas: pourquoi dites-vous que "quand les échantillons a et b sont très similaires , il est plus probable que leur produit sera atypique "?

amibe dit de réintégrer Monica

4

Benjamini et Yekutieli donnent dans leur article quelques exemples de la différence de dépendance à la régression positive (PRD) et de la simple association positive. La procédure de contrôle du FDR repose sur une forme plus faible de PRD qu’ils appellent PRDS (c’est-à-dire PRD sur chacun d’eux à partir d’un sous-ensemble de variables).

Lehmann a initialement proposé la dépendance positive dans une configuration bivariée , mais la version multivariée de ce concept, appelée dépendance de régression positive, est ce qui convient aux tests multiples.

Voici un extrait pertinent de la page 6

$\mathbf{X}$ $(\mathbf{X}_1, \mathbf{X}_2)$ $\mathbf{X}$ $h(\mathbf{X}_1)$ $\mathbf{X}_2$ $h(\mathbf{X}_1)$
$\dots$ $\ldots$

utilisateur3303
la source

2

La dépendance positive dans ce cas signifie que l'ensemble des tests est corrélé positivement. L'idée est donc que si les variables de l'ensemble de tests pour lesquelles vous avez des valeurs P sont corrélées positivement, chacune des variables n'est pas indépendante .

Si vous pensez à une correction de valeur p de Bonferroni, par exemple, vous pouvez garantir que le taux d'erreur de type 1 est inférieur à 10% par rapport à 100 tests statistiquement indépendants en réglant votre seuil de signification sur 0.1 / 100 = 0.001. Mais que se passe-t-il si chacun de ces 100 tests est corrélé? Ensuite, vous n'avez pas vraiment effectué 100 tests distincts.

En RAD, l’idée est légèrement différente de la correction de Bonferroni. L'idée est de garantir que seul un certain pourcentage (disons 10%) des éléments que vous déclarez importants sont faussement déclarés comme tels. Si vous avez des marqueurs corrélés (dépendance positive) dans votre jeu de données, la valeur FDR est choisie en fonction du nombre total de tests que vous effectuez (mais le nombre réel de tests statistiquement indépendants est plus petit). De cette manière, il est plus sûr de conclure que le taux de fausse découverte déclare faussement 10% ou moins des tests de votre ensemble de valeurs P.

Veuillez consulter ce chapitre du livre pour une discussion sur la dépendance positive.

Derrek
la source

2

Vous expliquez FDR contre Bonferroni, mais vous ne définissez pas la "dépendance positive", vous la reformulez simplement en "corrélation positive", mais je ne comprends pas. Considérez que j'ai 1000 valeurs de P, testant l'expression de 1000 gènes différents en comparant des personnes avec et sans maladie. J'utilise la méthode BH pour décider lesquelles de ces comparaisons sont des "découvertes". Que signifie "dépendance positive" dans ce contexte?

Harvey Motulsky

5

Cette réponse est complètement fausse. La dépendance de régression positive et l'association positive sont différentes les unes des autres. Le document Benjamini Yekutieli explique cela et fournit également des références. "Néanmoins, PRDS et l’association positive ne s’impliquent pas et la différence a une certaine importance. Par exemple, une distribution normale multivariée est associée positivement si et seulement si toutes les corrélations sont non négatives. voir section 3.1, cas 1 ci-dessous). " Voir pg. 6 du papier.

user3303

La signification de «dépendance positive» comme condition pour utiliser la méthode habituelle de contrôle FDR

Réponses:

La grande image

Édité pour ajouter: