Meilleure pratique lors de l'analyse de conceptions pré-post-traitement

53

Imaginez le design commun suivant:

  • 100 participants sont affectés au hasard à un traitement ou à un groupe témoin
  • la variable dépendante est numérique et mesurée avant et après le traitement

Trois options évidentes pour analyser ces données sont:

  • Testez l'effet d'interaction groupe par temps dans une ANOVA mixte
  • Effectuer une ANCOVA avec la condition IV et la pré-mesure comme covariable et la post-mesure comme DV
  • Faites un test t avec la condition IV et les scores avant changement comme la DV

Question:

  • Quel est le meilleur moyen d'analyser de telles données?
  • Y a-t-il des raisons de préférer une approche à une autre?
Jeromy Anglim
la source
1
Quand vous dites "condition", vous voulez dire une affectation de groupe?
pmgjones
1
@propofol: oui. excuses si mon langage n'est pas clair.
Jeromy Anglim
1
Il existe également des méthodes paramétriques "N sur 1" pour évaluer statistiquement les données temporelles d'observations uniques. Exemple d'application: ncbi.nlm.nih.gov/pubmed/2039432 Méthodes comparatives: europepmc.org/abstract/MED/10557859/…
user31256

Réponses:

34

Il existe une littérature abondante sur ce sujet (scores de changement / gain), et je pense que les meilleures références proviennent du domaine biomédical, par exemple:

Senn, S (2007). Problèmes statistiques dans le développement de médicaments . Wiley (chap. 7 p. 96-112)

Dans le domaine de la recherche biomédicale, des études intéressantes ont également été menées sur les essais croisés (en particulier en ce qui concerne les effets de transfert, bien que je ne sache pas dans quelle mesure il s’applique à votre étude).

De Gain Score t à ANCOVA F (et inversement) , de Knapp & Schaffer, propose une analyse intéressante de l’approche ANCOVA vs. t (le paradoxe de Lord). L’analyse simple des scores de changement n’est pas la méthode recommandée pour la conception avant / après, selon Senn dans son article Change from baseline et une analyse de la covariance revue (Stat. Med. 2006 25 (24)). En outre, l’utilisation d’un modèle à effets mixtes (par exemple pour prendre en compte la corrélation entre les deux points de temps) n’est pas préférable, car vous devez réellement utiliser la mesure "préalable" comme covariable pour augmenter la précision (par ajustement). Très brièvement:

  • pré) est généralement négative - il s'ensuit que si le traitement (votre répartition de groupe) mesuré par les scores bruts se révèle être un désavantage injuste par rapport pour contrôler, il aura un avantage injuste avec les scores de changement.
  • La variance de l'estimateur utilisé dans ANCOVA est généralement inférieure à celle des scores bruts ou de changement (sauf si la corrélation entre pré et post est égale à 1).
  • Si les relations avant / après diffèrent entre les deux groupes (pente), le problème ne se pose pas autant que pour toute autre méthode (l'approche des scores de changement suppose également que la relation est identique entre les deux groupes - hypothèse de la pente parallèle ).
  • Sous l'hypothèse nulle d'égalité de traitement (sur le résultat), aucune interaction traitement-base x de base n'est attendue; Il est dangereux d’adapter un tel modèle, mais dans ce cas, il faut utiliser des lignes de base centrées (sinon, l’effet du traitement est estimé à l’origine de la covariable).

J'aime aussi Dix mythes sur les scores de différence d'Edwards, bien que l'accent soit mis sur les scores de différence dans un contexte différent; mais voici une bibliographie annotée sur l'analyse du changement avant-après (malheureusement, elle ne couvre pas les travaux très récents). Van Breukelen a également comparé ANOVA à ANCOVA dans des contextes randomisés et non randomisés, et ses conclusions appuient l'idée qu'il faut privilégier l'ANCOVA, du moins dans les études randomisées (qui empêchent une régression à l'effet moyen).

chl
la source
Juste pour clarifier: voulez-vous dire que l'ANCOVA avec des scores de pré-test comme covariables est la meilleure option?
Réinitialiser Monica le
17

Daniel B. Wright en discute dans la section 5 de son article Se lier d'amitié avec vos données . Il suggère (p.130):

La seule procédure qui soit toujours correcte dans cette situation est un diagramme de dispersion comparant les scores au temps 2 à ceux du temps 1 pour les différents groupes. Dans la plupart des cas, vous devez analyser les données de plusieurs manières. Si les approches donnent des résultats différents ... réfléchissez plus attentivement au modèle impliqué par chacune.

Il recommande les articles suivants en tant que lectures supplémentaires:

  • Hand, DJ (1994). Déconstruire des questions statistiques. Journal de la Société royale de statistique: A, 157, 317–356.
  • Lord, FM (1967). Un paradoxe dans l'interprétation des comparaisons de groupes. Psychological Bulletin, 72, 304-305. PDF gratuit
  • Wainer, H. (1991). Ajustement pour tenir compte des taux de base différentiels: le paradoxe de Lord à nouveau. Psychological Bulletin, 109, 147-151. PDF gratuit
Jeromy Anglim
la source
9

Les stratégies les plus courantes seraient:

  1. ANOVA à mesures répétées avec un facteur intra-sujet (avant ou après le test) et un facteur inter-sujet (traitement ou témoin).
  2. ANCOVA sur les scores post-traitement, avec le score pré-traitement en tant que covariable et le traitement en tant que variable indépendante. Intuitivement, l’idée est qu’un test des différences entre les deux groupes correspond réellement à ce que vous recherchez et que l’inclusion des résultats au pré-test, car une covariable peut augmenter la puissance par rapport à un simple test t ou à une ANOVA.

Il y a beaucoup de discussions sur l'interprétation, les hypothèses et les différences apparemment paradoxales entre ces deux approches et sur des alternatives plus sophistiquées (surtout quand les participants ne peuvent pas être assignés au traitement de manière aléatoire) mais ils restent assez standards, je pense.

Une source importante de confusion est que pour l’ANOVA, l’effet d’intérêt est très probablement l’ interaction entre le temps et le traitement et non l’effet principal du traitement. Incidemment, le test F pour ce terme d'interaction donnera exactement le même résultat qu'un test t de l'échantillon indépendant sur les scores de gain (c.-à-d. Les scores obtenus en soustrayant le score pré-test du score post-test pour chaque participant) afin que vous puissiez allez aussi pour ça.

Si tout cela est trop, vous n’avez pas le temps de le comprendre et vous ne pouvez pas obtenir l’aide d’un statisticien. Une approche rapide et sale, mais en aucun cas totalement absurde, consisterait simplement à comparer les résultats du post-test avec un échantillon t-test indépendant, en ignorant les valeurs pré-test. Cela n'a de sens que si les participants ont été assignés au hasard au groupe de traitement ou au groupe de contrôle .

Enfin, ce n’est pas en soi une très bonne raison de le choisir, mais je soupçonne que l’approche 2 ci-dessus (ANCOVA) est actuellement considérée comme la bonne approche en psychologie. Par conséquent, si vous choisissez autre chose, vous devrez peut-être expliquer la technique en détail ou justifier. vous-même à quelqu'un qui est convaincu, par exemple que "les scores de gain sont connus pour être mauvais".

Gala
la source
1
Je dirais que la première recommandation, ANOVA à mesures répétées, n'est pas appropriée pour analyser les données avant et après. Le traitement est-il codé à 0 dans le groupe d'intervention au départ? Quoi qu'il en soit, cela réintroduit l'effet Hawthorne. Les différences systématiques en pré / post entre les contrôles sont choquées jusqu'à variation aléatoire. La RM AN C OVA est justifiée lorsqu'il existe plusieurs mesures au cours d'une période postérieure et que les valeurs de base sont toujours ajustées en tant que covariable ou utilisées en tant que gain / score.
AdamO
2

ANCOVA et mesures répétées / modèle mixte pour le terme d'interaction testent deux hypothèses différentes. Reportez-vous à cet article: article 1 et à cet article: article 2

Thomas
la source
-2

Étant donné que vous avez deux moyens (soit un élément spécifique, soit la somme de l'inventaire), il n'y a aucune raison d'envisager une ANOVA. Un test t apparié est probablement approprié; Cela peut vous aider à choisir le test t dont vous avez besoin.

Voulez-vous examiner les résultats par élément ou les scores globaux? Si vous souhaitez effectuer une analyse d’articles, cela peut être un bon point de départ.

Krysta
la source
4
Qu'en est-il du groupe de contrôle? Un test t apparié sur toutes les données semble une mauvaise idée et ne répond certainement pas à la question principale (le traitement est-il efficace?). Un test t apparié limité au groupe de traitement est une stratégie plausible, mais ignorer le groupe de contrôle jette beaucoup de données et fournit des preuves beaucoup plus faibles que l'intervention est bien l'ingrédient actif. L’ANOVA est en fait un moyen courant - bien que souvent critiqué - d’analyser cette conception.
Gala