Faut-il aborder les ajustements de comparaisons multiples lors de l'utilisation des intervalles de confiance?

27

Supposons que nous ayons un scénario de comparaisons multiples tel qu'une inférence post hoc sur des statistiques par paires, ou comme une régression multiple, où nous faisons un total de comparaisons. Supposons également que nous aimerions soutenir l'inférence dans ces multiples en utilisant des intervalles de confiance.m

1. Appliquons-nous plusieurs ajustements de comparaison aux IC? C'est-à-dire que, tout comme les comparaisons multiples obligent à redéfinir au taux d'erreur familial (FWER) ou au taux de fausses découvertes (FDR), le sens de la confiance (ou de la crédibilité 1 , ou de l'incertitude, ou de la prédiction, ou inférentielle ... choisissez votre intervalle) est-il modifié de la même manière par de multiples comparaisons? Je me rends compte qu'une réponse négative ici apaisera mes questions restantes.α

2. Existe-t-il des traductions simples des procédures d'ajustement de comparaison multiple, du test d'hypothèse à l'estimation d'intervalle? Par exemple, les ajustements se concentreraient-ils sur la modification du terme dans l'intervalle de confiance: ?Niveau CICIθ=(θ^±t(1-Niveau CI) / 2σ^θ)

3. Comment pourrions-nous aborder les procédures de contrôle progressif ou descendant pour les IC? Certains ajustements du taux d'erreur au niveau de la famille de l'approche de test d'hypothèse à l'inférence sont «statiques» en ce que précisément le même ajustement est effectué pour chaque inférence distincte. Par exemple, l'ajustement de Bonferroni se fait en modifiant le critère de rejet de:

  • rejeter si à:pα2
  • rejeter si ,pα2m

mais l'ajustement progressif Holm-Bonferroni n'est pas «statique», mais plutôt effectué par:

  • ordonner d'abord les valeurs plus petit au plus grand, puisp
  • rejeter si , (où indexe l'ordre des p- valeurs) jusqu'àp1-(1-α2)1m+1-jejep
  • nous échouons à rejeter une hypothèse nulle et échouons automatiquement à rejeter toutes les hypothèses nulles suivantes.

Parce que le rejet / l'échec du rejet ne se produit pas avec les CI (plus formellement, voir les références ci-dessous), cela signifie-t-il que les procédures par étapes ne se traduisent pas (c'est-à-dire en incluant toutes les méthodes FDR)? Je dois souligner ici que je ne demande pas comment traduire les IC en tests d'hypothèse (les représentants de la littérature sur les `` tests d'hypothèse visuels '' cités ci-dessous parviennent à cette question non triviale).

4. Qu'en est-il de ces autres intervalles que j'ai mentionnés entre parenthèses dans 1?


1 Mon Dieu, je vous espère que je ne suis pas en difficulté avec les Rockin' les styles bayésienne doux, doux en utilisant ce mot ici. :)


Références
Afshartous, D. et Preston, R. (2010). Intervalles de confiance pour les données dépendantes: égaliser le non-chevauchement avec la signification statistique. Statistiques computationnelles et analyse des données , 54 (10): 2296–2305.

Cumming, G. (2009). Inférence à l'œil: lecture du chevauchement des intervalles de confiance indépendants. Statistics In Medicine , 28 (2): 205-220.

Payton, ME, Greenstone, MH et Schenker, N. (2003). Chevauchement des intervalles de confiance ou des intervalles d'erreur standard: que signifient-ils en termes de signification statistique? Journal of Insect Science , 3 (34): 1–6.

Tryon, WW et Lewis, C. (2008). Méthode d'intervalle de confiance inférentiel pour établir l'équivalence statistique qui corrige le facteur de réduction de Tryon (2001). Psychological Methods , 13 (3): 272-277.

Alexis
la source
Je n'ai pas le temps de rechercher une réponse complète maintenant, alors je vais répondre dans un commentaire.
Harvey Motulsky
[Le dernier commentaire a été tronqué. [Je n'ai pas le temps de rechercher une réponse complète maintenant, donc je vais répondre dans un commentaire. 1) Oui, cela a du sens dans les mêmes situations que les comparaisons multiples pour les tests d'hypothèse ont du sens. 2. Les comparaisons multiples de Bonferroni, Tukey et Dunnet peuvent facilement être adaptées pour établir des intervalles de confiance où le niveau de confiance s'applique à toute la famille. 3. Pour autant que je sache, il n'y a aucune possibilité de faire des intervalles de confiance à partir de la méthode Holm. 4. Je n'en ai aucune idée!
Harvey Motulsky
2
@HarveyMotulsky Génial! Quant à vos deux premières réponses: (1) Pourquoi? (2) Simplement en inversant le calcul des ajustements de valeur ajustements lors du calcul des valeurs critiques d'une distribution avec laquelle on construit un CI? Vous pourriez (pousser) toujours écrire (pousser) une réponse formelle au lieu d'amplifier dans les commentaires (nudgitty-nudge nudge). pα
Alexis

Réponses:

9

Un excellent sujet qui, malheureusement, ne reçoit pas assez d'attention.

Lors de l'examen de plusieurs paramètres et intervalles de confiance, une distinction doit être faite entre l' inférence simultanée et l' inférence sélective . Réf. [2] donne une excellente démonstration de la question.

Les intervalles de confiance simultanés signifient que tous les paramètres sont couverts par confiance . Les intervalles de confiance sélectifs signifient qu'un sous-ensemble de paramètres sélectionnés est couvert.1-α

Ces deux concepts peuvent être combinés: Supposons que vous construisez des intervalles uniquement sur des paramètres pour lesquels vous avez rejeté l'hypothèse nulle. Vous avez clairement affaire à l'inférence sélective. Vous souhaiterez peut-être garantir une couverture simultanée des paramètres sélectionnés ou une couverture marginale des paramètres sélectionnés. Le premier serait l'équivalent du contrôle FWER et le second du contrôle FDR.

Maintenant, plus précisément: toutes les procédures de test n'ont pas leurs intervalles d'accompagnement. Pour les procédures FWER et leurs intervalles d'accompagnement, voir [3]. Malheureusement, cette référence est un peu dépassée. Pour la contrepartie d'intervalle du contrôle BH FDR, voir [1] et une application dans [4] (qui comprend également un bref examen de la question). Veuillez noter qu'il s'agit d'un domaine de recherche frais et actif afin que vous puissiez vous attendre à plus de résultats dans un proche avenir.

[1] Benjamini, Y., et D. Yekutieli. «Intervalles de confiance multiples ajustés au taux de fausses découvertes pour certains paramètres». Journal de l'American Statistical Association 100, no. 469 (2005): 71–81.

[2] Cox, DR «Une remarque sur les méthodes de comparaison multiples». Technometrics 7, no. 2 (1965): 223-24.

[3] Hochberg, Y., et AC Tamhane. Procédures de comparaison multiples. New York, NY, États-Unis: John Wiley & Sons, Inc., 1987.

[4] Rosenblatt, JD et Y. Benjamini. «Corrélations sélectives; Not Voodoo. ”NeuroImage 103 (décembre 2014): 401–10.

JohnRos
la source
1

Je n'aurais jamaisajuster les intervalles de confiance pour plusieurs tests. Je ne suis pas un grand fan des valeurs de p, car je pense que l'estimation des paramètres est une meilleure utilisation des statistiques que le test d'hypothèses qui ne sont jamais exactement vraies. Cependant, je concède que le test d'hypothèse a sa valeur, par exemple un essai contrôlé randomisé où au moins on peut affirmer qu'asymptotiquement, si un traitement ne fonctionne pas, l'hypothèse nulle est vraie. Cependant, comme je l'ai dit ailleurs [1], cela implique généralement d'avoir un résultat principal. Cependant, les intervalles de confiance, dans la définition fréquentiste, n'impliquent pas d'hypothèses et n'ont donc pas besoin d'être ajustés pour d'autres comparaisons, potentiellement non pertinentes. Supposons que je teste des phénotypes associés à un gène particulier, par exemple la taille et la pression artérielle. JE' J'aimerais savoir quelle est la différence de hauteur entre ceux avec et sans le gène, et comment je l'ai bien estimée. Je ne vois pas que le fait d'avoir également mesuré la tension artérielle ait quelque chose à voir avec cela. Là où cela pourrait être important, c'est que si ces deux-là étaient les seuls significatifs parmi des centaines que nous avons testés. Ensuite, il est probable que les différences soient, par hasard, plus importantes que les expériences contrefactuelles attendues où nous n'avons mesuré que la taille et la pression artérielle, mais nous l'avons fait des centaines d'expériences. Cependant, dans ces circonstances, aucun ajustement simple ne fonctionnerait, et mieux vaut donner une estimation non ajustée, mais expliquez comment vous avez obtenu ces comparaisons. Nous avons également publié quelques règles sur les intervalles de confiance qui se chevauchent. [2] t voir que le fait que j'ai également mesuré la pression artérielle a quelque chose à voir avec cela. Là où cela pourrait être important, c'est que si ces deux-là étaient les seuls significatifs parmi des centaines que nous avons testés. Ensuite, il est probable que les différences soient, par hasard, plus importantes que les expériences contrefactuelles attendues où nous n'avons mesuré que la taille et la pression artérielle, mais nous l'avons fait des centaines d'expériences. Cependant, dans ces circonstances, aucun ajustement simple ne fonctionnerait, et mieux vaut donner une estimation non ajustée, mais expliquez comment vous avez obtenu ces comparaisons. Nous avons également publié quelques règles sur les intervalles de confiance qui se chevauchent. [2] t voir que le fait que j'ai également mesuré la pression artérielle a quelque chose à voir avec cela. Là où cela pourrait être important, c'est que si ces deux-là étaient les seuls significatifs parmi des centaines que nous avons testés. Ensuite, il est probable que les différences soient, par hasard, plus importantes que les expériences contrefactuelles attendues où nous n'avons mesuré que la taille et la pression artérielle, mais nous l'avons fait des centaines d'expériences. Cependant, dans ces circonstances, aucun ajustement simple ne fonctionnerait, et mieux vaut donner une estimation non ajustée, mais expliquez comment vous avez obtenu ces comparaisons. Nous avons également publié quelques règles sur les intervalles de confiance qui se chevauchent. [2] plus grand que les expériences contrefactuelles attendues où nous n'avons mesuré que la taille et la pression artérielle, mais nous l'avons fait des centaines d'expériences. Cependant, dans ces circonstances, aucun ajustement simple ne fonctionnerait, et mieux vaut donner une estimation non ajustée, mais expliquez comment vous avez obtenu ces comparaisons. Nous avons également publié quelques règles sur les intervalles de confiance qui se chevauchent. [2] plus grand que les expériences contrefactuelles attendues où nous n'avons mesuré que la taille et la pression artérielle, mais nous l'avons fait des centaines d'expériences. Cependant, dans ces circonstances, aucun ajustement simple ne fonctionnerait, et mieux vaut donner une estimation non ajustée, mais expliquez comment vous avez obtenu ces comparaisons. Nous avons également publié quelques règles sur les intervalles de confiance qui se chevauchent. [2]

[1] Campbell MJ et Swinscow TDV (2009) Statistiques à Square One. 11e éd Oxford; BMJ Books Blackwell Publishing

[2] Julious SA, Campbell MJ, Walters SJ (2007) Prédire où se situeront les moyens futurs sur la base des résultats de l'essai en cours. Contemporary Clinical Trials, 28, 352-357.

Mike Campbell
la source
1
Merci pour la réponse qui fait réfléchir, Mike. Benjamini, Hochberg et Yekutieli semblent affirmer que les comparaisons ne sont pas «non pertinentes», mais en fait simultanées: «Une couverture simultanée est également nécessaire lorsqu'une action doit être prise en fonction de la valeur de tous les paramètres. Ainsi, la comparaison des critères d'évaluation principaux entre deux les traitements dans un essai clinique impliqueront probablement l'inspection de tous, qu'ils soient significativement différents ou non. C'est une situation claire où une couverture simultanée est nécessaire. " (Laissant de côté la question de la présentation sélective de certains CI uniquement.)
Alexis
Soit dit en passant, étant donné « Je ne suis pas un grand fan de p-valeurs, parce que je crois que l' estimation des paramètres est une meilleure utilisation des statistiques que de tester des hypothèses qui ne sont jamais tout à fait vrai », vous pourriez apprécier Pourquoi hypothèse frequentist tests se biaisé en faveur du rejet de la hypothèse nulle avec des échantillons suffisamment grands? . À votre santé.
Alexis
1
Bien que je convienne avec vous que les intervalles de confiance des paramètres sont supérieurs aux valeurs de p pour la plupart des formes d'inférence, je ne sais pas si cela implique nécessairement qu'aucune correction pour les comparaisons multiples n'est nécessaire avec les intervalles de confiance. La plupart des intervalles de confiance sont définis par l'utilisation d'alpha, pour spécifier la couverture. Même dissocié du cadre strict de test d'hypothèses, il me semble (naïvement, sans prendre la peine de faire des simulations pour vérifier) ​​qu'il pourrait être trompeur de s'en tenir dogmatiquement à la couverture nominale (par exemple 95%, donc alpha = 0,05) lorsque plusieurs comparaisons sont impliqué.
Ryan Simmons
2
Mike Campbell a déclaré que "les intervalles de confiance, dans la définition fréquentiste, n'impliquent pas d'hypothèses et n'ont donc pas besoin d'être ajustés pour d'autres comparaisons, potentiellement non pertinentes". C'est une déclaration étrange. Bien que les IC ne reflètent pas nécessairement des «tests d'hypothèse» en soi, ils reflètent des tests statistiques qui ont un certain taux d'erreur (par exemple, 0,05), et ce taux d'erreur est gonflé à mesure que le nombre de tests augmente - exactement de la même mathématique de base. principe qui s'applique aux tests d'hypothèse nulle. On n'échappe pas au problème des comparaisons multiples en se concentrant sur les CI au lieu des valeurs de p.
Bonferroni