Différences de base dans l'ECR: quelles variables (le cas échéant) devraient être incluses comme covariables?

8

J'ai récemment terminé une étude par laquelle j'ai assigné au hasard des participants à l'un des deux groupes de traitement. J'ai testé les participants au départ, immédiatement après l'intervention, 1 mois et 4 mois sur un assez grand nombre de variables de résultats. Je prévoyais d'exécuter plusieurs ANOVA mixtes pour examiner les interactions groupe x temps. Certaines des comparaisons seront des comparaisons 2 (groupe) x 2 (temps: ligne de base et post-intervention) et certaines seront des comparaisons 2 (groupe) x 3 (temps: ligne de base, 1 mois, 4 mois).

Avant de commencer mes analyses, j'ai comparé les deux groupes de traitement sur toutes les variables de base. J'ai trouvé que les groupes diffèrent sur 4 variables de base si j'utilise un niveau alpha de 0,05 ou 2 variables de base si j'utilise un niveau alpha de 0,01 pour comparer les groupes.

J'ai deux questions à ce sujet:

  1. Quel niveau alpha dois-je utiliser pour comparer les groupes au départ? Je pensais à un niveau alpha de 0,01 parce que je compare les deux groupes sur 24 caractéristiques de base et je pensais que je devrais choisir un niveau alpha plus strict que 0,05 pour réduire le taux d'erreur familial car un grand nombre de tests sont en cours effectué, mais d'après mes lectures, il semble que la plupart des gens utilisent 0,05. Que recommandez-vous?

  2. Que dois-je faire à propos de ces différences? Je pourrais inclure ces variables en tant que covariables, mais la taille de mon échantillon est assez petite et l'utilisation de 4 covariables ne semble pas appropriée (ce qui explique également en partie pourquoi je préfère n'accepter les différences que si elles sont significatives au niveau 0,05)

Toute aide à ce sujet serait très appréciée!

Rachel
la source

Réponses:

8

Comme l'a écrit Stephen Senn, il n'est pas approprié de comparer les distributions de base dans une étude randomisée. La façon dont j'aime en parler est de poser la question "où vous arrêtez-vous?", C'est-à-dire combien d'autres covariables de référence devriez-vous revenir en arrière et essayer de récupérer? Vous trouverez des covariables de contrepoids si vous regardez bien.

Le choix d'un modèle ne repose pas sur des différences post-hoc, mais plutôt sur une connaissance du sujet a priori sur les variables susceptibles d'être d'importants prédicteurs de la variable de réponse. La version de base de la variable de réponse est certainement un prédicteur dominant mais il y en a d'autres qui sont susceptibles d'être importantes. L'objectif est d'expliquer l'hétérogénéité explicable du résultat pour maximiser la précision et la puissance. Il n'y a presque aucun rôle pour les tests de signification statistique dans la formulation du modèle.

Un modèle prédéfini prendra en compte les différences de chance sur les variables importantes - celles qui prédisent le résultat.

Frank Harrell
la source
Merci à tous pour vos réponses. Les variables de base qui diffèrent les unes des autres sur la base des multiples tests t sont les niveaux de base de certaines des variables de résultats (par exemple, les scores de dépression de base différaient et la dépression à 1 et 4 mois est l'une des mesures des résultats).
Rachel
3

Normalement, ce à quoi vous devez vous soucier lorsque vous comparez les deux groupes au départ n'est pas tant la signification statistique des différences que la taille des différences: l'une de ces différences est-elle suffisamment importante pour avoir une importance pour l'étude? Assez grand pour affecter les comparaisons de groupes et les relations variables qui sont au centre de la recherche? Assez grand pour qu'il soit nécessaire de l'ajuster (en l'utilisant comme covariable)?

Maintenant, votre cas est un peu intéressant en ce que, même avec une affectation aléatoire, vous avez 4 des 24 variables montrant des différences significatives au niveau 0,05 (17% au lieu des 5% attendus). Cela peut sembler préoccupant pour votre processus de randomisation ou tout autre aspect de l'étude. Mais théoriquement, si la randomisation était effectuée sans problème et qu'il n'y avait pas d'attrition dans l'un ou l'autre groupe par la suite, un résultat aussi extrême ou plus devrait se produire 2,4% du temps, basé sur 24! / (4! (24-4)!) ( .05 ^ 4) (.95 ^ (24-4)). Ce n'est pas vraiment un événement si rare après tout. Ce que vous avez pourrait bien être un ensemble de différences aléatoires. Je m'en tiendrai à un jugement basé sur l'ampleur des différences.

rolando2
la source
2
Excellent point sur la multiplicité. En ce qui concerne l'évaluation des différences, je pense que la recherche de grandes différences est très fortement corrélée à la recherche de petites valeurs P; Je ne le recommande pas non plus.
Frank Harrell
Comment puis-je savoir si l'une de ces différences est suffisamment grande pour avoir une importance pour l'étude et suffisamment grande pour que l'ajustement (en l'utilisant comme covariable) soit nécessaire? La taille de l'effet pour chacune des quatre différences au départ (en utilisant le d de Cohen) est de 0,78, 0,64, 1,06 et 0,89 respectivement.
Rachel
2
Vous ne le faites pas et ne pouvez pas. Pensez à formuler le bon modèle à l'avance plutôt que des ajustements post hoc.
Frank Harrell
D'accord, cela a du sens. Dois-je alors analyser mes résultats d'une autre manière plutôt qu'en utilisant un modèle mixte? Ou suffit-il de mentionner les différences mais de ne pas les ajuster?
Rachel
3
Ma seule pensée est de demander à un expert en la matière quels sont les prédicteurs importants de la variable de réponse, sans parler à l'expert des différences que vous avez trouvées, puis d'ajuster pour ces prédicteurs.
Frank Harrell
2

+1 à @FrankHarrell. Je pourrais ajouter un petit point. Si vous avez affecté au hasard vos participants aux groupes, toute différence «significative» dans les valeurs de covariable avant l'intervention est nécessairement une erreur de type I.

gung - Réintégrer Monica
la source
1
Très bien, et votre commentaire souligne la difficulté de spécifier exactement à quoi les tests de différence de référence d'inférence de population sont destinés.
Frank Harrell
2
@gung -hello! Qu'en est-il de ce point de vue: dans un ECR, les 2 groupes sont tout ce que nous avons. Bien entendu, ils proviennent de la même population: il n'y a pas 2 populations sur lesquelles commettre des erreurs, de type I ou autre. La signification statistique n'est donc pas pertinente, mais de grandes différences pourraient bien avoir de l'importance et pourraient nécessiter un ajustement via l'utilisation de covariables.
rolando2
2
J'aime la première partie, mais la dernière partie est plus complexe qu'il n'y paraît, et les ajustements post-hoc peuvent créer des biais tout en omettant de s'ajuster aux grands explicateurs d'hétérogénéité des réponses. De plus, les données sont incapables de nous dire pour quel ensemble de covariables il faut ajuster.
Frank Harrell
@ rolando2, la façon dont j'y pense est la suivante: votre population est la population dont votre échantillon a été tiré; le «traitement» est votre procédure d'assignation aléatoire; & la variable de réponse est la covariable que vous vérifiez. Le test t vérifie si la procédure d'assignation aléatoire est associée à la valeur moyenne de la covariable. Maintenant, si votre procédure d'affectation est défectueuse, il est parfaitement raisonnable qu'elle puisse être associée avec des valeurs de covariable résultantes, mais si elle est vraiment aléatoire, par définition, elle ne peut pas l'être et donc chaque constatation `` significative '' est une erreur de type I .
gung - Rétablir Monica
2
Vous ajustez de toute façon votre variable de résultat au départ; c'est standard. Vous êtes alors confiant que votre procédure de randomisation est valide et permet donc des inférences valides. Si vous pensez que votre procédure d'affectation était défectueuse et que vos inférences résultantes sont invalides, vous devez recommencer en rassemblant un nouvel échantillon, en affectant vos participants à des groupes de traitement via une procédure vraiment aléatoire qui vous permettra d'avoir confiance en vos conclusions, et relance de l'étude.
gung - Rétablir Monica