J'essaie d'exécuter une régression OLS:
DV: Variation du poids sur un an (poids initial - poids final)
IV: Que vous exerciez ou non.
Cependant, il semble raisonnable que les personnes plus lourdes perdent plus de poids par unité d'exercice que les personnes plus minces. Ainsi, je voulais inclure une variable de contrôle:
- CV: Poids de départ initial.
Cependant, maintenant, le poids initial est utilisé À LA FOIS pour calculer la variable dépendante ET en tant que variable de contrôle.
Est-ce correct? Cela enfreint-il une hypothèse de MCO?
Réponses:
Pour répondre à votre question littérale, "Est-il valide d'inclure une mesure de base en tant que variable de contrôle lors du test de l'effet d'une variable indépendante sur les scores de changement?", La réponse est non . La réponse est non, car, par construction, le score de référence est corrélé au terme d'erreur lorsque le score de changement est utilisé comme variable dépendante. Par conséquent, l'effet estimé de la référence sur le score de changement est ininterprétable.
En utilisant
On a alors un modèle régressant sur T et X ;ΔY T X
Qui par définition est équivalent à;
Maintenant, si vous incluez la ligne de base en tant que covariable, vous devriez voir un problème, en ce sens que vous avez le terme deux côtés de l'équation. Cela montre que β 3 Y 1 est ininterprétable, car il est intrinsèquement corrélé au terme d'erreur.Y1 β3Y1
Or, une partie de la confusion dans les différentes réponses semble provenir du fait que différents modèles donneront des résultats identiques pour l’ effet du traitement , dans la formulation ci-dessus. Ainsi, si l’on comparait l’effet du traitement pour le modèle en utilisant les scores de changement comme variable dépendante du modèle en utilisant les "niveaux" (chaque modèle incluant la ligne de base Y 1 en tant que covariable), l’interprétation de l’effet du traitement serait: le même. Dans les deux modèles qui suivent, β 1 T sera identique, de même que les inférences basées sur ces modèles (Bruce Weaver a affiché du code SPSS démontrant également l'équivalence).β1T Y1 β1T
Certains diront donc (comme Felix dans ce fil, et comme Bruce Weaver l’a fait lors de discussions sur le groupe google SPSS) que, étant donné que les modèles produisent le même effet de traitement estimé, peu importe celui que vous choisissez. Je ne suis pas d'accord, car la covariable de base dans le modèle de score de changement ne peut pas être interprétée, vous ne devez jamais inclure la référence comme covariable (que l'effet estimé du traitement soit identique ou non). Cela soulève donc une autre question: à quoi sert-il d'utiliser les scores de changement comme variables dépendantes? Comme Felix l'a déjà noté également, le modèle utilisant le score de changement comme variable dépendante excluant la ligne de base en tant que covariable est différent du modèle utilisant les niveaux. Pour clarifier, les modèles suivants donneront des effets de traitement différents (en particulier dans le cas où le traitement est corrélé avec la ligne de base);
Cela a été noté dans la littérature antérieure comme "Le paradoxe du Seigneur". Alors quel modèle a raison? Eh bien, dans le cas d'expériences randomisées, je dirais que le modèle Levels est préférable (bien que si vous faites du bon travail en randomisant, l'effet de traitement moyen devrait être très proche entre les modèles). D'autres ont noté les raisons pour lesquelles le modèle de niveaux est préférable, la réponse de Charlie montre clairement que vous pouvez estimer les effets d'interaction avec la ligne de base dans le modèle de niveaux (mais vous ne pouvez pas utiliser le modèle de score de changement). Whuber dans cette réponse à une question très similaire montre comment les scores de changement induisent des corrélations entre différents traitements.
Dans les situations où le traitement n'est pas attribué au hasard, le modèle utilisant des scores de changement comme variable dépendante devrait être davantage pris en compte. Le principal avantage du modèle de score de changement est que tous les prédicteurs invariants dans le temps du résultat sont contrôlés. Ainsi, dans la formulation ci-dessus, est constant dans le temps (par exemple, une prédisposition génétique à un certain poids) et X est en corrélation avec le fait qu'un individu choisisse de faire de l'exercice (et X n'est pas observé). Dans ce cas, le modèle de score de changement est préférable. De même, dans les cas où la sélection dans le traitement est corrélée à la valeur de base, le modèle de score de changement peut être préférable. Paul Allison dans son journal,X X X Changer les scores en tant que variables dépendantes dans l'analyse de régression donne ces mêmes exemples (et a largement influencé mon point de vue sur le sujet, je suggère donc vivement de le lire).
Cela ne veut pas dire que les scores de changement sont toujours préférables dans des contextes non randomisés. Si vous vous attendez à ce que la référence ait un effet causal réel sur le poids de la publication, vous devez utiliser le modèle des niveaux. Dans le cas où vous vous attendez à ce que la ligne de base ait un effet causal et que la sélection dans le traitement soit corrélée à la ligne de base, l'effet du traitement est confondu avec l'effet de ligne de base.
J'ai ignoré la note de Charlie selon laquelle le logarithme du poids pourrait être utilisé comme variable dépendante. Bien que je ne doute pas que cela pourrait être une possibilité, c'est en quelque sorte une question non séquentielle à la question initiale. Une autre question a porté sur le moment approprié pour utiliser les logarithmes de la variable (et ceux-ci s'appliquent toujours dans ce cas). Il existe probablement des publications antérieures sur le sujet qui pourraient vous aider à déterminer si l’utilisation du poids journalé est également appropriée.
Citation
Allison, Paul D. 1990. Variation des scores en tant que variables dépendantes dans l'analyse de régression . Sociology Methodology 20: 93-114. Version PDF publique .
la source
La réponse d'Andy semble être le point de vue de l'économiste. Dans les essais cliniques, il est de pratique courante de s’ajuster presque toujours à la version de base de la variable de réponse afin d’accroître considérablement la puissance. Comme nous conditionnons les variables de base, il n’existe pas de «terme d’erreur» pour qu’elles soient confondues avec le terme d’erreur global. Le seul problème serait que les erreurs de mesure dans la covariable de base soient confondues avec un autre X, faussant ainsi les effets de cet autre X. La méthode généralement privilégiée consiste à ajuster le niveau de référence et à modéliser la variable de réponse, et non à calculer le changement. Une des raisons est que le changement dépend fortement de la transformation correcte de Y, et que ce changement ne s'applique pas aux modèles de régression en général. Par exemple, si Y est ordinale, la différence entre deux variables ordinales n'est plus ordinale.
la source
Comme vous pouvez le constater, les inter-partiels sur les termes d'interaction peuvent devenir un peu difficiles à interpréter, mais ils peuvent capturer un impact qui vous intéresse.
la source
EDIT: l'argument d'Andy W m'a convaincu d'abandonner le modèle C. J'ai ajouté une autre possibilité: analyser le changement avec des modèles à coefficients aléatoires (également appelés modèles multiniveaux ou modèles à effets mixtes).
Il y a eu beaucoup de débats scientifiques sur l'utilisation des scores de différence. Mes textes préférés sont Rogosa (1982, [1]) et Fitzmaurice, Laird et Ware (2004, [2]).
En général, vous avez trois possibilités pour analyser vos données:
C) Prendre le score de différence en DV et le contrôler pour la ligne de base (c'est le modèle que vous avez suggéré).En raison des arguments de Andy W, j'ai abandonné cette alternativeLes modèles A et B peuvent produire des résultats très différents si la ligne de base est corrélée au score de changement (par exemple, les personnes plus lourdes perdent plus de poids) et / ou que l'attribution du traitement est en corrélation avec la ligne de base.
Si vous voulez en savoir plus sur ces questions, consultez les documents cités, ou ici et ici .
Il existe également une récente étude de simulation [3] qui compare empiriquement les conditions dans lesquelles A ou B sont préférables.
Pour des conceptions complètement équilibrées sans aucune valeur manquante, le modèle D devrait être équivalent au modèle A. Toutefois, il vous donne plus d'informations sur la variabilité entre les personnes, il est facilement étendu à davantage de points de mesure et présente des propriétés intéressantes en présence de données non équilibrées. et / ou des valeurs manquantes.
En bout de ligne: dans votre cas, j'analyserais les mesures postérieures contrôlées pour la ligne de base (modèle B).
[1] Rogosa, D., Brandt, D. et Zimowski, M. (1982). Une approche de la courbe de croissance pour mesurer le changement. Psychological Bulletin, 92, 726-748.
[2] Fitzmaurice, GM, Laird, NM et Ware, JH (2004). Analyse longitudinale appliquée. Hoboken, NJ: Wiley.
[3] Petscher, Y. et Schatschneider, C., 2011. Une étude de simulation sur la performance des scores simples de différence et ajustés à la covariance dans des modèles expérimentaux randomisés. Journal of Educational Measurement, 48, 31-43.
la source
Laird, N. (1983). Further Comparative Analyses of Pretest-Posttest Research Designs. The American Statistician, 37, 329-330.
?, Qui montre une équivalence de B et C?Voir Josh Angrist sur exactement cette question: http://www.mostlyharmlesseconometrics.com/2009/10/adding-lagged-dependent-vars-to-differenced-models/ . Il s'oppose largement à l'inclusion du retardateur DV dans votre modèle. Il n'y a rien dans sa réponse qui ne soit dans les réponses ci-dessus, mais une réponse plus succincte à votre question peut aider.
la source
Glymour et al. (2005) ont utilisé l'ajustement de base lors de l'analyse d'un score de changement. Si le changement de l'état de santé a précédé l'évaluation de base ou s'il existe une erreur de mesure importante dans la variable dépendante, ils constatent qu'un biais peut survenir si le modèle de régression utilisant le score de changement comme variable dépendante inclut une covariable de base. Réponse de Frank Harrell "Le seul problème serait que les erreurs de mesure dans la covariable de base soient confondues avec un autre X, faussant ainsi l'effet de cet autre X". peut refléter le même biais que les adresses Glymour.
Glymour (2005) "Quand un ajustement de base est-il utile dans l'analyse du changement? Un exemple d'éducation et de changement cognitif. American Journal of Epidemiology 162: 267-278
la source
Ocram n'est pas correct. La différence de poids ne tient pas compte du poids initial. Plus précisément, le poids initial est enlevé en soustrayant le poids final.
Par conséquent, je dirais que cela ne viole aucune hypothèse si vous contrôlez le poids initial.
(La même logique s'applique si vous prenez la différence entre l'IMC et l'IMC initial.)
Mise à jour
Après la critique d'Andy W, permettez-moi d'être plus formel pour expliquer pourquoi j'ai raison et qu'Ocram a tort (du moins d'après ce que j'ai dit).
Si vous souhaitez en tenir compte, vous devez l'incorporer séparément dans votre modèle (en tant que paramètre ordinaire et / ou en tant que terme d'interaction).
la source
Observe ceci
est équivalent à
En mots, utiliser le changement de poids (au lieu du poids final lui-même) en tant que DV représente déjà le poids initial.
la source