Étant donné la configuration expérimentale suivante:
Plusieurs échantillons sont prélevés sur un sujet et chaque échantillon est traité de plusieurs façons (y compris un traitement témoin). Ce qui est principalement intéressant, c'est la différence entre le contrôle et chaque traitement.
Je peux penser à deux modèles simples pour ces données. Avec l'échantillon , le traitement , le traitement 0 étant le contrôle, soit les données, la ligne de base pour l'échantillon , la différence pour le traitement . Le premier modèle examine à la fois le contrôle et la différence:j Y i j γ i i δ j j
δ 0 = 0
Alors que le deuxième modèle ne regarde que la différence. Si nous précalculons au préalable alors d i j = Y i j - Y i 0 d i j = δ j + ε i j
Ma question est quelles sont les différences fondamentales entre ces deux configurations? En particulier, si les niveaux n'ont pas de sens en eux-mêmes et que seule la différence compte, le premier modèle en fait-il trop et est-il peut-être sous-alimenté?
la source
Réponses:
Les sont susceptibles d'être corrélés dans le deuxième modèle mais pas le premier.ϵij
Dans le premier, ces termes représentent l'erreur de mesure et les écarts par rapport au modèle additif. Avec un soin raisonnable - comme en randomisant la séquence de mesures - ces erreurs peuvent être rendues indépendantes lorsque le modèle est précis. D'où
(Notez que cela contredit la dernière équation de la question, car il est faux de supposer que Cela nous obligerait à admettre que les sont des variables aléatoires plutôt que des paramètres, au moins une fois que nous reconnaissons la possibilité d'erreur de mesure pour le contrôle, ce qui conduirait aux mêmes conclusions ci-dessous.)ϵi0=0 γi
Pour , cela impliquej,k≠0 j≠k
La corrélation peut être substantielle. Pour les erreurs iid, un calcul similaire montre qu'il est égal à 0,5. À moins que vous n'utilisiez des procédures qui gèrent explicitement et correctement cette corrélation, privilégiez le premier modèle au deuxième.
la source