Si plusieurs comparaisons sont «planifiées», devez-vous tout de même corriger les comparaisons multiples?

20

J'examine un article qui a effectué> 15 tests distincts du Chi2 2x2. J'ai suggéré qu'ils doivent corriger les comparaisons multiples, mais ils ont répondu en disant que toutes les comparaisons étaient prévues, et donc ce n'est pas nécessaire.

Je pense que cela ne doit pas être correct, mais je ne trouve aucune ressource qui indique explicitement si c'est le cas.

Est-ce que quelqu'un peut aider avec ça?


Mise à jour:

Merci pour toutes vos réponses très utiles. En réponse à la demande de @ gung pour plus d'informations sur l'étude et les analyses, ils comparent les données de comptage pour deux types de participants (étudiants, non-étudiants) dans deux conditions, sur trois périodes. Les multiples tests de 2x2 chi carré comparent chaque période, dans chaque condition, pour chaque type de participant (si cela a du sens; par exemple, étudiants, condition 1, période 1 vs période 2), donc toutes les analyses testent la même hypothèse .

DrJay
la source
2
Beaucoup de personnes qui effectuent des comparaisons multiples prévoient de les faire toutes a priori . Ils le font parce qu'ils veulent contrôler le taux d'erreur global de type I. Dans certaines situations, il peut être raisonnable de ne pas corriger les comparaisons multiples, mais il ne s'agit pas simplement de planifier de les faire toutes dès le départ.
Glen_b -Reinstate Monica
3
Pouvez-vous en dire un peu plus sur l'étude, ses données et ses analyses? Est-ce que> 15 équivaut à toutes les comparaisons possibles, ou seulement un petit%? Combien de données ont-ils? Dans quelle mesure est-il plausible que les hypothèses soient toutes a priori? Sont-ils tous importants? Les tests du chi carré sont-ils indépendants les uns des autres? Considérez également certaines des questions soulevées dans la réponse de @ peuhp.
gung - Réintégrer Monica
4
Parce qu'ils "sont" probablement intéressés à trouver des résultats significatifs, leur réponse est égoïste. Par conséquent, il leur incombe de démontrer pourquoi leur approche est légitime, plutôt que de montrer qu'elle est illégitime. Toute tentative de montrer que de multiples corrections de comparaisons peuvent être négligées échouera dès qu'il considérera le taux de faux positifs à l'échelle du papier, et par conséquent "ils" doivent soit (de manière fallacieuse) éviter toute considération de cette question, soit fournir un bon argument sur la raison pour laquelle cela ne concerne pas leur public cible.
whuber
1
Je serais très tenté de répondre avec un lien vers cette bande XKCD (qui, comme vous le remarquerez, implique une série entièrement planifiée de tests multiples ...).
Ilmari Karonen

Réponses:

21

C'est à mon humble avis un problème complexe et je voudrais faire trois commentaires sur cette situation.

Premièrement et d'une manière générale, je me concentrerais davantage sur la question de savoir si vous êtes confronté à une étude de confirmation avec un ensemble d'hypothèses bien formées définies dans un contexte argumentatif ou une étude explicative dans laquelle de nombreux indicateurs probables sont observés plutôt que s'ils sont planifiés ou non (car vous pouvez prévoyez simplement de faire toutes les comparaisons possibles).

Deuxièmement, je voudrais également me concentrer sur la façon dont les valeurs de p résultantes sont ensuite discutées. Sont-ils utilisés individuellement pour servir un ensemble de conclusions définitives, ou sont-ils discutés conjointement comme preuve et manque de preuve?

Enfin, je discuterais de la possibilité que l'hypothèse> 15 résultant des> 15 tests de chi carré séparés soit en fait l'expression de quelques hypothèses (peut-être une seule) qui peuvent être résumées.

Plus généralement, que les hypothèses soient prédéfinies ou non, la correction des comparaisons multiples ou non dépend de ce que vous incluez dans l'erreur de type I. En ne corrigeant pas pour MC, vous ne conservez qu'un contrôle du taux d'erreur par comparaison de type I. Donc, en cas de nombreuses comparaisons, vous avez un taux d'erreur élevé de type I au niveau de la famille et vous êtes donc plus sujet aux fausses découvertes.

peuhp
la source
8
(+1) Il pourrait être utile de préciser que le taux d'erreur au niveau de l'expérience n'est pas contrôlé par les quinze comparaisons individuelles prévues; d'autre part, les comparaisons possibles au-delà des quinze non prévues dans le protocole n'ont pas besoin d'être prises en compte dans la correction des comparaisons multiples.
Scortchi - Réintégrer Monica
@Scortchi Merci pour votre contribution mais je ne comprends pas ce que vous entendez par "le taux d'erreur au niveau de l'expérience n'est pas contrôlé par les quinze comparaisons individuelles en cours de planification"?
peuhp
1
Juste le point de base que si vous voulez contrôler la probabilité sous le zéro de faire une ou plusieurs erreurs de type I dans tous ces tests, vous devez utiliser une procédure de comparaisons multiples. Je ne le mentionne que parce que j'ai rencontré de la confusion sur la question auparavant.
Scortchi - Réintégrer Monica
2
Notez que ce même problème est survenu dans un fil de discussion très récent: Application post-hoc de comparaisons multiples .
Michael R. Chernick
1
@Scortchi. Ok merci pour cette clarification et cette contribution, cela devrait en effet être clairement spécifié dans ma réponse. Ajoutera cela.
peuhp
5

Compte tenu de votre mise à jour sur la conception, je suggère qu'ils fassent une forme de modèle log-linéaire pour utiliser toutes les données à la fois. Faire les analyses à la pièce qu'ils ont faites semble (a) inefficace (b) non scientifique car il teste 15 hypothèses où il y a sûrement moins d'hypothèses réelles.

Je ne suis pas un fan de la correction de la multiplicité en tant que réflexe conditionné, mais dans ce cas, s'ils rejettent une approche analytique plus profonde, je suggère qu'ils corrigent.

mdewey
la source
1
k15
1
χ2
4

Si vous remplacez le mot «prémédité» par «planifié», cela peut aider à dissiper l'argument avancé par les auteurs. Considérons deux analyses statistiques différentes des mêmes données:

  1. Un `` crime prémédité '' dans lequel chaque test d'hypothèse possible est présenté de manière combinatoire à l'avance par un `` cerveau criminel statistique '', le plan étant de les essayer systématiquement et de choisir le test avec la plus petite valeur p comme `` constatation clé '' à promouvoir dans les sections Résultats, Discussion et Conclusion du document, et même dans le Titre.
  2. Un «crime passionnel» dans lequel l'intention initiale était simplement de confronter les données à une hypothèse, mais «eh bien ... une chose en amène une autre» et de multiples tests d'hypothèses ad hoc «arrivent tout simplement» dans le feu de la passion scientifique pour apprendre "quelque chose ... n'importe quoi! " à partir des données.

Quoi qu'il en soit, c'est du «meurtre» - la question est de savoir si c'est au premier degré ou au deuxième degré. De toute évidence, le premier est moralement plus problématique. Il me semble que les auteurs ici tentent de prétendre que ce n'était pas un meurtre parce qu'il était prémédité.

David C. Norris
la source
4
Mais faire des comparaisons multiples n'est pas un crime, prémédité ou non. P-chasse est.
Cliff AB
1

Ce document répond directement à votre question: http://jrp.icaap.org/index.php/jrp/article/view/514/417

(Frane, AV, «Les tests d'hypothèse planifiés ne sont pas nécessairement exemptés de l'ajustement de la multiplicité», Journal of Research Practice, 2015)

Bonferroni
la source