Je comprends l'intuition derrière le MCP mais j'ai du mal à identifier exactement la cause, qu'est-ce qui devrait être évité, ou du moins expliqué.
Dans sa définition la plus directe, je conviens que si je prends des données et que j'applique une approche de force brute en essayant toutes les hypothèses nulles possibles, j'en trouverai éventuellement une qui peut être rejetée avec une alfa arbitraire (par exemple, 5%) et déclarer une découverte.
Mais dans de nombreuses définitions de MCP, je lis quelque chose comme "plus vous testez, plus vous êtes susceptible de trouver", et bien que je sois d'accord, je ne le vois pas nécessairement comme un problème (ou du moins la racine du problème). Par exemple, si de nombreux chercheurs analysent le même phénomène avec les mêmes données disponibles, chacun testant sa propre hypothèse, il est plus probable que l'on parvienne à une découverte (que s'il ne s'agissait que d'un seul chercheur), cela signifie-t-il qu'ils devraient appliquer un certain type de correction de leur alfa cible (par exemple, une correction de Bonferroni )? Je suppose que la réponse est non, mais il n'est pas clair pourquoi un seul chercheur testant de nombreuses hypothèses devrait (encore une fois, convenir que le système de test peut être abusé et qu'il devrait y avoir une correction pour cela).
Quand cette chance accrue de trouver une découverte (rejeter une hypothèse nulle) devient-elle un problème? Lorsque vous réfléchissez aux causes, certains facteurs viennent à l'esprit, mais je ne sais pas lequel d'entre eux (ou d'autres non répertoriés ici) est le plus lié à la cause de ce problème:
Analyse post hoc : Je comprends que les hypothèses devraient être (de préférence) formulées a priori, sinon, je regarde simplement les données en essayant de deviner quelle hypothèse je pourrais intégrer sous l'alfa souhaitée.
Réutilisation des données: le problème est-il résolu si j'utilise des ensembles de données différents pour chaque hypothèse que je teste? La chance de trouver une découverte augmentera encore plus d'hypothèses que je teste (même sur différents ensembles de données).
Chercheurs indépendants: en réutilisant l'exemple précédent, le MCP est-il lié à la même équipe / effort de recherche? Ou cela s'applique à plusieurs chercheurs indépendants travaillant sur le même problème (ou même sur des données identiques ou similaires)?
Hypothèses indépendantes: liées au problème précédent, le problème se pose-t-il (ou se manifeste-t-il plus fortement) lorsque les hypothèses sont indépendantes? (parce que je couvre plus d'espace de recherche) ou le problème principal est d'essayer des hypothèses similaires avec de petites variations (par exemple, affiner un paramètre)?
Je pourrais résumer les points ci-dessus, dans mon interprétation, comme (1) et (2) étant des formes de réduction de l'espace de recherche (empruntant la terminologie à la théorie de l'optimisation) où je facilite la recherche d'une découverte; et (3) et (4) comme utilisant davantage de méthodes de recherche orthogonales qui couvrent une plus grande partie de cet espace de recherche chaque fois qu'elles sont appliquées (c'est-à-dire, chaque fois qu'une hypothèse est testée). Mais ce ne sont que quelques causes possibles que je pourrais trouver, pour aider à obtenir une réponse, il y a beaucoup plus que je manque, j'en suis sûr.
Cette question est en quelque sorte la suite d'une précédente qui demande pourquoi la comparaison multiple est un problème , soulevant un problème similaire à la distinction entre le FWER et le FDR (si je comprends bien la question). Dans cette question, je ne considère pas cela comme un problème (bien que je serais plus enclin à utiliser le FDR), les deux taux impliquent qu'il y a un problème lors de l'analyse de plus d'une hypothèse (mais je ne vois pas la distinction par rapport au cas où J'analyse différents problèmes non liés, trouvant une découverte pour chacun d'eux avec une signification de 5%, ce qui signifie que lorsque j'ai "résolu" 100 problèmes rejetant des hypothèses nulles, 5 d'entre eux - valeur attendue - seraient probablement faux). La meilleure réponse à cette question impliquait qu'il n'y avait pas de réponse définitive à cela, et peut-être qu'il n'y en a pas non plus pour cette question, mais il serait toujours très utile (pour moi au moins) d'élucider autant que possible où est la cause de l'erreur MCP provenir de.
( Une autre réponse à la même question a suggéré un document qui explique les avantages de la perspective du modèle bayésien à plusieurs niveaux par rapport à la perspective classique. Il s'agit d'une autre approche intéressante qui mérite d'être étudiée mais la portée de cette question est le cadre classique.)
Il y a déjà plusieurs questions sur ce problème, beaucoup valent la peine d'être lues (par exemple, 1 , 2 , 3 , 4 ) qui abordent (sous différents angles) les problèmes soulevés ci-dessus, mais je ressens toujours une réponse plus unifiée (si cela est même possible) fait défaut, d'où cette question qui, je l'espère, ne diminue pas le SNR (déjà problématique) .
la source
Réponses:
Votre intuition est à peu près correcte, mais elle peut aider à considérer comment la comparaison multiple sape les hypothèses du test d'hypothèse lui-même. Lorsque vous effectuez un test d'hypothèse classique, vous générez une valeur de p, qui est une mesure de la preuve par rapport à l'hypothèse nulle. La valeur de p est construite de telle manière que des valeurs inférieures constituent une plus grande évidence contre le nul, et elle est distribuée uniformément sous l'hypothèse nulle . C'est ce qui permet de considérer l'hypothèse nulle comme peu plausible pour les faibles valeurs de p (par rapport au niveau de signification).
Supposons que vous décidiez de testerN>1 hypothèses sans faire aucun ajustement à votre méthode de test pour tenir compte des comparaisons multiples. Chaque valeur de p pour ces tests est une variable aléatoire qui est uniforme sous l'hypothèse nulle pour ce test. Donc, si aucune des hypothèses alternatives de ces tests n'est vraie (c'est-à-dire que toutes les hypothèses nulles sont vraies), vous avezp1,...,pN∼U(0,1) (ces valeurs ne sont généralement pas indépendantes). Supposons que vous choisissez un niveau de signification0<α<1 et vous testez toutes ces hypothèses par rapport à ce niveau. Pour ce faire, vous regardez les valeurs de p ordonnées et observez que vous avezp(1)<...<p(k)<α<p(k+1)...<p(N) pour certains 0⩽k⩽N . Cela vous indique que pour les premiers tests (correspondant aux valeurs de p ordonnées), vous devez rejeter l'hypothèse nulle pour chacun de ces tests.k
Quel est le problème ici? Eh bien, le problème est que, bien que les valeurs de p de chacun des tests soient uniformes sous leurs hypothèses nulles respectives, les valeurs de p ordonnées ne sont pas uniformes. En sélectionnant les valeurs p les plus basses qui sont inférieures au niveau de signification, vous ne regardez plus les variables aléatoires qui sont uniformes sous leurs hypothèses nulles respectives. En fait, pour les grands , les valeurs de p les plus faibles sont susceptibles d'avoir une distribution qui est fortement concentrée près de zéro, et donc elles sont très susceptibles d'être en dessous de votre niveau de signification, même si (par hypothèse) toutes les hypothèses nulles pour votre les tests sont vrais.k N
Ce phénomène se produit indépendamment du fait que les valeurs de p soient indépendantes ou non, et se produit donc indépendamment du fait que vous utilisiez les mêmes données ou des données différentes pour tester ces hypothèses. Le problème des comparaisons multiples est que les valeurs de p inférieures des tests auront des distributions nulles marginales qui ne sont pas uniformes . Des ajustements tels que la correction de Bonferroni tentent de résoudre ce problème en ajustant les valeurs de p ou les niveaux de signification pour créer une comparaison qui tient compte de ce phénomène.N
la source
Vous semblez supposer qu'un chercheur peut savoir quand une découverte est faite. Ce n'est pas le cas. Même si vous "trouvez une découverte", vous ne pouvez jamais être sûr que vous l'avez fait (à moins que vous ne soyez une sorte d'omniscient), car, aussi déconcertant que cela puisse paraître, ce qui distingue une fausse alarme d'une découverte scientifique est généralement un certain degré de «confiance» humaine dans l'analyse.
la source