Utiliser des variables de contrôle dans les expériences?

9

Pourquoi voudrait-on contrôler un certain nombre de covariables de référence dans une situation où l'affectation au groupe de traitement est aléatoire?

Je crois comprendre que l'attribution aléatoire d'un traitement devrait rendre la variable de traitement strictement exogène, créant ainsi un groupe témoin qui peut être considéré comme un contrefactuel. La seule exception à laquelle je peux penser est lorsque la taille des échantillons est petite et que l'assignation aléatoire peut toujours produire des groupes déséquilibrés.

Toutes suggestions seraient très appréciées. Merci!

Robb
la source

Réponses:

6

D'un point de vue fréquentiste, une comparaison non ajustée basée sur la distribution de permutation peut toujours être justifiée à la suite d'une étude (correctement) randomisée. Une justification similaire peut être faite pour l'inférence basée sur des distributions paramétriques communes (par exemple, la distribution ou la distribution ) en raison de leur similitude avec la distribution de permutation. En fait, l'ajustement pour les covariables - lorsqu'elles sont sélectionnées sur la base d'analyses post-hoc - risque en réalité de gonfler l'erreur de type I. Notez que cette justification n'a rien à voir avec le degré d'équilibre dans l' échantillon observé ou avec la taille de l'échantillon (sauf que pour les petits échantillons, la distribution de permutation sera plus discrète et moins bien approximée par letFtou distributions ).F

Cela dit, de nombreuses personnes sont conscientes que l'ajustement pour les covariables peut augmenter la précision du modèle linéaire. Plus précisément, l'ajustement des covariables augmente la précision de l'effet du traitement estimé lorsqu'il est prédictif du résultat et n'est pas corrélé avec la variable de traitement (comme c'est le cas dans le cas d'une étude randomisée). Ce qui est moins connu, cependant, c'est que cela ne se répercute pas automatiquement sur les modèles non linéaires. Par exemple, Robinson et Jewell [1] montrent que dans le cas de la régression logistique, le contrôle des covariables réduit la précision de l'effet du traitement estimé, même lorsqu'elles sont prédictives du résultat. Cependant, comme l'effet estimé du traitement est également plus important dans le modèle ajusté, le contrôle des covariables prédictives du résultat ne augmenter l'efficacité lors du test de l'hypothèse nulle d'absence d'effet de traitement après une étude randomisée.

[1] LD Robinson et NP Jewell. Quelques résultats surprenants sur l'ajustement covariable dans les modèles de régression logistique. Revue statistique internationale , 58 (2): 227–40, 1991.

Phil Schumm
la source
Bonjour - réponse intéressante. Êtes-vous intéressé à avoir une conversation hors ligne à ce sujet?
rolando2
12

Si le résultat dépend du traitement ainsi que d'autres facteurs observables, le contrôle de ce dernier améliore souvent la précision de l'estimation de l'impact (c.-à-d. Que l'erreur-type de l'effet du traitement sera plus petite). Lorsque la taille de l'échantillon est petite, cela peut être utile.

Voici une simulation simple où même si le traitement est aléatoire, l'erreur standard diminue d'un tiers:

. set obs 100
obs was 0, now 100

. gen treat =mod(_n,2)

. gen x=rnormal()

. gen y = 2 + 3*treat + 1*x + rnormal()

. reg y treat

      Source |       SS       df       MS              Number of obs =     100
-------------+------------------------------           F(  1,    98) =  112.75
       Model |  209.354021     1  209.354021           Prob > F      =  0.0000
    Residual |  181.973854    98  1.85687606           R-squared     =  0.5350
-------------+------------------------------           Adj R-squared =  0.5302
       Total |  391.327875    99  3.95280682           Root MSE      =  1.3627

------------------------------------------------------------------------------
           y |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       treat |   2.893814   .2725345    10.62   0.000     2.352978     3.43465
       _cons |   2.051611    .192711    10.65   0.000     1.669183     2.43404
------------------------------------------------------------------------------

. reg y treat x

      Source |       SS       df       MS              Number of obs =     100
-------------+------------------------------           F(  2,    97) =  180.50
       Model |  308.447668     2  154.223834           Prob > F      =  0.0000
    Residual |  82.8802074    97  .854435127           R-squared     =  0.7882
-------------+------------------------------           Adj R-squared =  0.7838
       Total |  391.327875    99  3.95280682           Root MSE      =  .92436

------------------------------------------------------------------------------
           y |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       treat |   2.918349   .1848854    15.78   0.000     2.551403    3.285295
           x |   1.058636   .0983022    10.77   0.000     .8635335    1.253739
       _cons |   1.996209    .130825    15.26   0.000     1.736558     2.25586
------------------------------------------------------------------------------
Dimitriy V. Masterov
la source
1
+1 - Une autre raison est d'identifier les effets d'interaction avec le traitement, mais cela prend plus que simplement "contrôler" d'autres facteurs comme le PO mentionné.
Andy W
Merci! Donc, si une ou plusieurs covariables affectent le résultat que vous essayez de mesurer, les inclure dans votre modèle améliorera la précision de votre estimation de l'effet du traitement attribué au hasard, mais n'aura pas vraiment d'impact sur votre estimation de la valeur de la coefficient de traitement, correct?
Robb
Oui c'est vrai.
Dimitriy V. Masterov,
Excuses pour le ping hors sujet: il y a une suggestion sur Meta pour faire de [randomized-experiment] un synonyme de balise [random-allocation] ( stats.meta.stackexchange.com/a/4651 ). Vous avez suffisamment de réputation dans cette balise pour voter pour cette suggestion ici: stats.stackexchange.com/tags/random-allocation/synonymes - il faut maintenant 4 votes positifs pour passer. Si vous n'êtes pas d'accord avec la proposition, pensez à commenter Meta pour expliquer pourquoi. Je supprimerai bientôt ce commentaire. À votre santé.
amibe