Supposons que nous ayons un scénario de comparaisons multiples tel qu'une inférence post hoc sur des statistiques par paires, ou comme une régression multiple, où nous faisons un total de comparaisons. Supposons également que nous aimerions soutenir l'inférence dans ces multiples en utilisant des intervalles de confiance.
1. Appliquons-nous plusieurs ajustements de comparaison aux IC? C'est-à-dire que, tout comme les comparaisons multiples obligent à redéfinir au taux d'erreur familial (FWER) ou au taux de fausses découvertes (FDR), le sens de la confiance (ou de la crédibilité 1 , ou de l'incertitude, ou de la prédiction, ou inférentielle ... choisissez votre intervalle) est-il modifié de la même manière par de multiples comparaisons? Je me rends compte qu'une réponse négative ici apaisera mes questions restantes.
2. Existe-t-il des traductions simples des procédures d'ajustement de comparaison multiple, du test d'hypothèse à l'estimation d'intervalle? Par exemple, les ajustements se concentreraient-ils sur la modification du terme dans l'intervalle de confiance: ?
3. Comment pourrions-nous aborder les procédures de contrôle progressif ou descendant pour les IC? Certains ajustements du taux d'erreur au niveau de la famille de l'approche de test d'hypothèse à l'inférence sont «statiques» en ce que précisément le même ajustement est effectué pour chaque inférence distincte. Par exemple, l'ajustement de Bonferroni se fait en modifiant le critère de rejet de:
- rejeter si à:
- rejeter si ,
mais l'ajustement progressif Holm-Bonferroni n'est pas «statique», mais plutôt effectué par:
- ordonner d'abord les valeurs plus petit au plus grand, puis
- rejeter si , (où indexe l'ordre des p- valeurs) jusqu'à
- nous échouons à rejeter une hypothèse nulle et échouons automatiquement à rejeter toutes les hypothèses nulles suivantes.
Parce que le rejet / l'échec du rejet ne se produit pas avec les CI (plus formellement, voir les références ci-dessous), cela signifie-t-il que les procédures par étapes ne se traduisent pas (c'est-à-dire en incluant toutes les méthodes FDR)? Je dois souligner ici que je ne demande pas comment traduire les IC en tests d'hypothèse (les représentants de la littérature sur les `` tests d'hypothèse visuels '' cités ci-dessous parviennent à cette question non triviale).
4. Qu'en est-il de ces autres intervalles que j'ai mentionnés entre parenthèses dans 1?
1 Mon Dieu, je vous espère que je ne suis pas en difficulté avec les Rockin' les styles bayésienne doux, doux en utilisant ce mot ici. :)
Références
Afshartous, D. et Preston, R. (2010). Intervalles de confiance pour les données dépendantes: égaliser le non-chevauchement avec la signification statistique. Statistiques computationnelles et analyse des données , 54 (10): 2296–2305.
Cumming, G. (2009). Inférence à l'œil: lecture du chevauchement des intervalles de confiance indépendants. Statistics In Medicine , 28 (2): 205-220.
Payton, ME, Greenstone, MH et Schenker, N. (2003). Chevauchement des intervalles de confiance ou des intervalles d'erreur standard: que signifient-ils en termes de signification statistique? Journal of Insect Science , 3 (34): 1–6.
Tryon, WW et Lewis, C. (2008). Méthode d'intervalle de confiance inférentiel pour établir l'équivalence statistique qui corrige le facteur de réduction de Tryon (2001). Psychological Methods , 13 (3): 272-277.
Réponses:
Un excellent sujet qui, malheureusement, ne reçoit pas assez d'attention.
Lors de l'examen de plusieurs paramètres et intervalles de confiance, une distinction doit être faite entre l' inférence simultanée et l' inférence sélective . Réf. [2] donne une excellente démonstration de la question.
Les intervalles de confiance simultanés signifient que tous les paramètres sont couverts par confiance . Les intervalles de confiance sélectifs signifient qu'un sous-ensemble de paramètres sélectionnés est couvert.1 - α
Ces deux concepts peuvent être combinés: Supposons que vous construisez des intervalles uniquement sur des paramètres pour lesquels vous avez rejeté l'hypothèse nulle. Vous avez clairement affaire à l'inférence sélective. Vous souhaiterez peut-être garantir une couverture simultanée des paramètres sélectionnés ou une couverture marginale des paramètres sélectionnés. Le premier serait l'équivalent du contrôle FWER et le second du contrôle FDR.
Maintenant, plus précisément: toutes les procédures de test n'ont pas leurs intervalles d'accompagnement. Pour les procédures FWER et leurs intervalles d'accompagnement, voir [3]. Malheureusement, cette référence est un peu dépassée. Pour la contrepartie d'intervalle du contrôle BH FDR, voir [1] et une application dans [4] (qui comprend également un bref examen de la question). Veuillez noter qu'il s'agit d'un domaine de recherche frais et actif afin que vous puissiez vous attendre à plus de résultats dans un proche avenir.
[1] Benjamini, Y., et D. Yekutieli. «Intervalles de confiance multiples ajustés au taux de fausses découvertes pour certains paramètres». Journal de l'American Statistical Association 100, no. 469 (2005): 71–81.
[2] Cox, DR «Une remarque sur les méthodes de comparaison multiples». Technometrics 7, no. 2 (1965): 223-24.
[3] Hochberg, Y., et AC Tamhane. Procédures de comparaison multiples. New York, NY, États-Unis: John Wiley & Sons, Inc., 1987.
[4] Rosenblatt, JD et Y. Benjamini. «Corrélations sélectives; Not Voodoo. ”NeuroImage 103 (décembre 2014): 401–10.
la source
Je n'aurais jamaisajuster les intervalles de confiance pour plusieurs tests. Je ne suis pas un grand fan des valeurs de p, car je pense que l'estimation des paramètres est une meilleure utilisation des statistiques que le test d'hypothèses qui ne sont jamais exactement vraies. Cependant, je concède que le test d'hypothèse a sa valeur, par exemple un essai contrôlé randomisé où au moins on peut affirmer qu'asymptotiquement, si un traitement ne fonctionne pas, l'hypothèse nulle est vraie. Cependant, comme je l'ai dit ailleurs [1], cela implique généralement d'avoir un résultat principal. Cependant, les intervalles de confiance, dans la définition fréquentiste, n'impliquent pas d'hypothèses et n'ont donc pas besoin d'être ajustés pour d'autres comparaisons, potentiellement non pertinentes. Supposons que je teste des phénotypes associés à un gène particulier, par exemple la taille et la pression artérielle. JE' J'aimerais savoir quelle est la différence de hauteur entre ceux avec et sans le gène, et comment je l'ai bien estimée. Je ne vois pas que le fait d'avoir également mesuré la tension artérielle ait quelque chose à voir avec cela. Là où cela pourrait être important, c'est que si ces deux-là étaient les seuls significatifs parmi des centaines que nous avons testés. Ensuite, il est probable que les différences soient, par hasard, plus importantes que les expériences contrefactuelles attendues où nous n'avons mesuré que la taille et la pression artérielle, mais nous l'avons fait des centaines d'expériences. Cependant, dans ces circonstances, aucun ajustement simple ne fonctionnerait, et mieux vaut donner une estimation non ajustée, mais expliquez comment vous avez obtenu ces comparaisons. Nous avons également publié quelques règles sur les intervalles de confiance qui se chevauchent. [2] t voir que le fait que j'ai également mesuré la pression artérielle a quelque chose à voir avec cela. Là où cela pourrait être important, c'est que si ces deux-là étaient les seuls significatifs parmi des centaines que nous avons testés. Ensuite, il est probable que les différences soient, par hasard, plus importantes que les expériences contrefactuelles attendues où nous n'avons mesuré que la taille et la pression artérielle, mais nous l'avons fait des centaines d'expériences. Cependant, dans ces circonstances, aucun ajustement simple ne fonctionnerait, et mieux vaut donner une estimation non ajustée, mais expliquez comment vous avez obtenu ces comparaisons. Nous avons également publié quelques règles sur les intervalles de confiance qui se chevauchent. [2] t voir que le fait que j'ai également mesuré la pression artérielle a quelque chose à voir avec cela. Là où cela pourrait être important, c'est que si ces deux-là étaient les seuls significatifs parmi des centaines que nous avons testés. Ensuite, il est probable que les différences soient, par hasard, plus importantes que les expériences contrefactuelles attendues où nous n'avons mesuré que la taille et la pression artérielle, mais nous l'avons fait des centaines d'expériences. Cependant, dans ces circonstances, aucun ajustement simple ne fonctionnerait, et mieux vaut donner une estimation non ajustée, mais expliquez comment vous avez obtenu ces comparaisons. Nous avons également publié quelques règles sur les intervalles de confiance qui se chevauchent. [2] plus grand que les expériences contrefactuelles attendues où nous n'avons mesuré que la taille et la pression artérielle, mais nous l'avons fait des centaines d'expériences. Cependant, dans ces circonstances, aucun ajustement simple ne fonctionnerait, et mieux vaut donner une estimation non ajustée, mais expliquez comment vous avez obtenu ces comparaisons. Nous avons également publié quelques règles sur les intervalles de confiance qui se chevauchent. [2] plus grand que les expériences contrefactuelles attendues où nous n'avons mesuré que la taille et la pression artérielle, mais nous l'avons fait des centaines d'expériences. Cependant, dans ces circonstances, aucun ajustement simple ne fonctionnerait, et mieux vaut donner une estimation non ajustée, mais expliquez comment vous avez obtenu ces comparaisons. Nous avons également publié quelques règles sur les intervalles de confiance qui se chevauchent. [2]
[1] Campbell MJ et Swinscow TDV (2009) Statistiques à Square One. 11e éd Oxford; BMJ Books Blackwell Publishing
[2] Julious SA, Campbell MJ, Walters SJ (2007) Prédire où se situeront les moyens futurs sur la base des résultats de l'essai en cours. Contemporary Clinical Trials, 28, 352-357.
la source