La différence entre contrôle et traitement doit-elle être modélisée explicitement ou implicitement?

9

Étant donné la configuration expérimentale suivante:

Plusieurs échantillons sont prélevés sur un sujet et chaque échantillon est traité de plusieurs façons (y compris un traitement témoin). Ce qui est principalement intéressant, c'est la différence entre le contrôle et chaque traitement.

Je peux penser à deux modèles simples pour ces données. Avec l'échantillon , le traitement , le traitement 0 étant le contrôle, soit les données, la ligne de base pour l'échantillon , la différence pour le traitement . Le premier modèle examine à la fois le contrôle et la différence:j Y i j γ i i δ j jijYijγiiδjj

δ 0 = 0

Yij=γi+δj+ϵij
δ0=0

Alors que le deuxième modèle ne regarde que la différence. Si nous précalculons au préalable alors d i j = Y i j - Y i 0 d i j = δ j + ε i jdij

dij=YijYi0
dij=δj+εij

Ma question est quelles sont les différences fondamentales entre ces deux configurations? En particulier, si les niveaux n'ont pas de sens en eux-mêmes et que seule la différence compte, le premier modèle en fait-il trop et est-il peut-être sous-alimenté?

Rónán Daly
la source
2
Je peux donner une réponse plus approfondie plus tard, mais je pense que cet article de Paul Allison serait intéressant ( Allison, 1990 ).
Andy W
1
Modifié pour refléter le fait que les erreurs dans les différents modèles ne sont pas réellement les mêmes et ne doivent donc pas utiliser les mêmes symboles.
Rónán Daly

Réponses:

6

Les sont susceptibles d'être corrélés dans le deuxième modèle mais pas le premier.ϵij

Dans le premier, ces termes représentent l'erreur de mesure et les écarts par rapport au modèle additif. Avec un soin raisonnable - comme en randomisant la séquence de mesures - ces erreurs peuvent être rendues indépendantes lorsque le modèle est précis. D'où

dij=YijYi0=γi+δj+ϵij(γi+δ0+ϵi0)=δj+(ϵijϵi0).

(Notez que cela contredit la dernière équation de la question, car il est faux de supposer que Cela nous obligerait à admettre que les sont des variables aléatoires plutôt que des paramètres, au moins une fois que nous reconnaissons la possibilité d'erreur de mesure pour le contrôle, ce qui conduirait aux mêmes conclusions ci-dessous.)ϵi0=0γi

Pour , cela impliquej,k0jk

Cov(dij,dik)=Cov(ϵijϵi0,ϵikϵi0)=Var(ϵi0)0.

La corrélation peut être substantielle. Pour les erreurs iid, un calcul similaire montre qu'il est égal à 0,5. À moins que vous n'utilisiez des procédures qui gèrent explicitement et correctement cette corrélation, privilégiez le premier modèle au deuxième.

whuber
la source
Ainsi, vous avez supposé que le premier modèle est le vrai modèle et avez dérivé une propriété indésirable du deuxième modèle. Nous savons que tous les modèles sont faux alors ce résultat est-il vraiment significatif?
Macro
1
@Macro Veuillez lire ma réponse plus attentivement: elle est conçue pour montrer quelles hypothèses sont nécessaires pour justifier le premier modèle et le distinguer du second, mais ne contient aucune hypothèse selon laquelle un modèle est "vrai". Par exemple, notez la mise en garde «lorsque le modèle est précis». Même le mot «précis» a été choisi en pensant à éviter la fausse impression qu'il existe un modèle «vrai» ou «correct».
whuber
1
Je suis un peu confus, qu'est-ce que ? dik
Andy W
1
@Andy et indexent deux traitements distincts. J'aurais dû écrire "Pour ..."; Je vais corriger cette faute de frappe. Merci de l'avoir attrapé. k j , k 0jkj,k0
whuber
@whuber Y a-t-il des références qui soutiennent votre déclaration, par exemple pour convaincre les examinateurs?
Daniel