Signification en langage clair des tests «dépendants» et «indépendants» dans la littérature des comparaisons multiples?

18

Dans la littérature sur le taux d'erreur au niveau de la famille (FWER) et sur le taux de fausses découvertes (FDR), des méthodes particulières de contrôle du FWER ou du FDR conviennent aux tests dépendants ou indépendants. Par exemple, dans l'article de 1979 "Une procédure de test multiple à rejet séquentiel simple", Holm a écrit pour comparer sa méthode de Šidák progressive à sa méthode de contrôle de Bonferroni:

La même simplicité de calcul est obtenue lorsque les statistiques de test sont indépendantes .

Dans "Controlling the False Discovery Rate" de Benjamini et Hochberg (1995), les auteurs écrivent:

Théorème 1. Pour des statistiques de test indépendantes et pour toute configuration d'hypothèses fausses nulles, la procédure ci-dessus contrôle le FDR à .q

Plus tard, en 2001, Benjamini et Yekutieli écrivent:

1.3. Le problème . Lorsque vous essayez d'utiliser l'approche FDR dans la pratique, les statistiques de test dépendantes sont rencontrées plus souvent que celles indépendantes , l'exemple de points finaux multiples de ce qui précède étant un cas d'espèce.

Quelles significations particulières de dépendant et indépendant ces auteurs utilisent-ils? Je serais heureux d'avoir des définitions formelles de ce qui rend les tests dépendants ou indépendants les uns des autres s'ils accompagnent une explication en langage clair.

Je peux penser à différentes significations possibles, mais je ne comprends pas très bien lesquelles, le cas échéant, elles pourraient être:

  • "Dépendant" signifie des tests multivariés (c'est-à-dire de nombreuses variables dépendantes avec des prédicteurs identiques ou similaires); indépendant signifie des tests univariés (c'est-à-dire de nombreuses variables indépendantes, une variable dépendante).

  • "Dépendant" signifie des tests basés sur des sujets appariés / appariés (par exemple test t apparié , mesures répétées ANOVA, etc.); "indépendant" signifie un plan d'étude d'échantillons non appariés / indépendants.

  • "Dépendant" signifie que la probabilité qu'un test soit rejeté est corrélée avec la probabilité qu'un autre test soit rejeté, et "dépendance positive" signifie que cette corrélation est positive; «indépendant» signifie que les probabilités de rejet ne sont pas corrélées.

Références
Benjamini, Y. et Hochberg, Y. (1995). Contrôler le taux de fausses découvertes: une approche pratique et puissante des tests multiples . Journal de la Royal Statistical Society. Série B (méthodologique) , 57 (1): 289–300.

Benjamini, Y. et Yekutieli, D. (2001). Le contrôle du taux de fausses découvertes dans plusieurs tests sous dépendance . Annals of Statistics , 29 (4): 1165–1188.

Holm, S. (1979). Une simple procédure de test multiple à rejet séquentiel . Scandinavian Journal of Statistics , 6 (65-70): 1979.

Alexis
la source
1
Une statistique de test est une variable aléatoire. «Indépendant» dans ce contexte a exactement la même signification qu'il a pour tout ensemble de variables aléatoires.
whuber
Merci @whuber, avez-vous une chance d'amplifier cela en une réponse? :)
Alexis

Réponses:

13

"Comparaisons multiples" est le nom attaché au problème général de la prise de décisions sur la base des résultats de plus d'un test. La nature du problème est mise en évidence par le célèbre dessin animé XKCD "Green jelly bean" dans lequel les enquêteurs ont effectué des tests d'hypothèse d'associations entre la consommation de bonbons (de 20 couleurs différentes) et l'acné. Un test a rapporté une p-valeur inférieure à , ce qui conduit à la conclusion que « les haricots de gelée verte causer de l' acné. » La blague est que les valeurs p, par la conception, ont un 1 / 20 chances d'être inférieur à 1 / 20 , donc intuitivement nous attendre à voir une valeur de p qui faible parmi 201/201/201/2020 différents tests.

Ce que le dessin animé ne dit pas, c'est si les tests étaient basés sur des ensembles de données distincts ou sur un ensemble de données.20

Avec des jeux de données distincts, chacun des résultats a un 1 / 20 chance d'être « significatif ». Les propriétés de base des probabilités (d'événements indépendants) impliquent alors que la chance que les 20 résultats soient «insignifiants» est ( 1 - 0,05 ) 200,36 . La chance restante de 1 - 0,36 = 0,64 est suffisamment grande pour corroborer notre intuition qu'un seul résultat "significatif" dans ce grand groupe de résultats n'est pas une surprise; aucune cause ne peut être valablement attribuée à un tel résultat si ce n'est l'opération du hasard.201/2020(10.05)200,3610.36=0.64

2020

(L'ANOVA gère ce problème au moyen de son test F global. Il s'agit en quelque sorte d'une comparaison "pour les gouverner tous": nous ne ferons pas confiance à la comparaison de groupe à groupe à moins que ce test F ne soit d'abord significatif.)

(p1,p2,,pn)nnd'entre eux en une seule décision. Sinon, le mieux que nous puissions faire est de nous appuyer sur des bornes approximatives (qui sont la base de la correction de Bonferroni, par exemple).

Distributions conjointes de indépendantes des variables aléatoires sont faciles à calculer. La littérature distingue donc cette situation du cas de non indépendance.

Par conséquent, la signification correcte de "indépendant" dans les citations est au sens statistique habituel de variables aléatoires indépendantes.


n(x1,,xm)μμ=0p1μ=1p2(p1,p2)

whuber
la source
+1 Merci, whuber! Pour l'exemple ANOVA, serait-il vrai que toute comparaison par paires suivant l'ANOVA où toutes les paires possibles sont testées serait "dépendante", ou seulement le cas où un groupe est comparé à une sélection d'autres? (Je pense que l'ancien, mais je veux être sûr).
Alexis
2
En ANOVA, la variance des résidus est estimée à partir de toutes les données. Ainsi, deux comparaisons quelconques seront (légèrement) dépendantes ne serait-ce que pour cette raison, même lorsque les comparaisons n'ont aucun groupe en commun. Lorsque les comparaisons ont des groupes en commun (tels que "A" vs "C" et "B" vs "C"), la dépendance est plus évidente et plus prononcée.
whuber