Utiliser des variables de contrôle dans les expériences?
9
Pourquoi voudrait-on contrôler un certain nombre de covariables de référence dans une situation où l'affectation au groupe de traitement est aléatoire?
Je crois comprendre que l'attribution aléatoire d'un traitement devrait rendre la variable de traitement strictement exogène, créant ainsi un groupe témoin qui peut être considéré comme un contrefactuel. La seule exception à laquelle je peux penser est lorsque la taille des échantillons est petite et que l'assignation aléatoire peut toujours produire des groupes déséquilibrés.
Toutes suggestions seraient très appréciées. Merci!
D'un point de vue fréquentiste, une comparaison non ajustée basée sur la distribution de permutation peut toujours être justifiée à la suite d'une étude (correctement) randomisée. Une justification similaire peut être faite pour l'inférence basée sur des distributions paramétriques communes (par exemple, la distribution ou la distribution ) en raison de leur similitude avec la distribution de permutation. En fait, l'ajustement pour les covariables - lorsqu'elles sont sélectionnées sur la base d'analyses post-hoc - risque en réalité de gonfler l'erreur de type I. Notez que cette justification n'a rien à voir avec le degré d'équilibre dans l' échantillon observé ou avec la taille de l'échantillon (sauf que pour les petits échantillons, la distribution de permutation sera plus discrète et moins bien approximée par letFtou distributions ).F
Cela dit, de nombreuses personnes sont conscientes que l'ajustement pour les covariables peut augmenter la précision du modèle linéaire. Plus précisément, l'ajustement des covariables augmente la précision de l'effet du traitement estimé lorsqu'il est prédictif du résultat et n'est pas corrélé avec la variable de traitement (comme c'est le cas dans le cas d'une étude randomisée). Ce qui est moins connu, cependant, c'est que cela ne se répercute pas automatiquement sur les modèles non linéaires. Par exemple, Robinson et Jewell [1] montrent que dans le cas de la régression logistique, le contrôle des covariables réduit la précision de l'effet du traitement estimé, même lorsqu'elles sont prédictives du résultat. Cependant, comme l'effet estimé du traitement est également plus important dans le modèle ajusté, le contrôle des covariables prédictives du résultat ne augmenter l'efficacité lors du test de l'hypothèse nulle d'absence d'effet de traitement après une étude randomisée.
[1] LD Robinson et NP Jewell. Quelques résultats surprenants sur l'ajustement covariable dans les modèles de régression logistique. Revue statistique internationale , 58 (2): 227–40, 1991.
Bonjour - réponse intéressante. Êtes-vous intéressé à avoir une conversation hors ligne à ce sujet?
rolando2
12
Si le résultat dépend du traitement ainsi que d'autres facteurs observables, le contrôle de ce dernier améliore souvent la précision de l'estimation de l'impact (c.-à-d. Que l'erreur-type de l'effet du traitement sera plus petite). Lorsque la taille de l'échantillon est petite, cela peut être utile.
Voici une simulation simple où même si le traitement est aléatoire, l'erreur standard diminue d'un tiers:
. set obs 100
obs was 0, now 100
. gen treat =mod(_n,2)
. gen x=rnormal()
. gen y = 2 + 3*treat + 1*x + rnormal()
. reg y treat
Source | SS df MS Number of obs = 100
-------------+------------------------------ F( 1, 98) = 112.75
Model | 209.354021 1 209.354021 Prob > F = 0.0000
Residual | 181.973854 98 1.85687606 R-squared = 0.5350
-------------+------------------------------ Adj R-squared = 0.5302
Total | 391.327875 99 3.95280682 Root MSE = 1.3627
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
treat | 2.893814 .2725345 10.62 0.000 2.352978 3.43465
_cons | 2.051611 .192711 10.65 0.000 1.669183 2.43404
------------------------------------------------------------------------------
. reg y treat x
Source | SS df MS Number of obs = 100
-------------+------------------------------ F( 2, 97) = 180.50
Model | 308.447668 2 154.223834 Prob > F = 0.0000
Residual | 82.8802074 97 .854435127 R-squared = 0.7882
-------------+------------------------------ Adj R-squared = 0.7838
Total | 391.327875 99 3.95280682 Root MSE = .92436
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
treat | 2.918349 .1848854 15.78 0.000 2.551403 3.285295
x | 1.058636 .0983022 10.77 0.000 .8635335 1.253739
_cons | 1.996209 .130825 15.26 0.000 1.736558 2.25586
------------------------------------------------------------------------------
+1 - Une autre raison est d'identifier les effets d'interaction avec le traitement, mais cela prend plus que simplement "contrôler" d'autres facteurs comme le PO mentionné.
Andy W
Merci! Donc, si une ou plusieurs covariables affectent le résultat que vous essayez de mesurer, les inclure dans votre modèle améliorera la précision de votre estimation de l'effet du traitement attribué au hasard, mais n'aura pas vraiment d'impact sur votre estimation de la valeur de la coefficient de traitement, correct?
Robb
Oui c'est vrai.
Dimitriy V. Masterov,
Excuses pour le ping hors sujet: il y a une suggestion sur Meta pour faire de [randomized-experiment] un synonyme de balise [random-allocation] ( stats.meta.stackexchange.com/a/4651 ). Vous avez suffisamment de réputation dans cette balise pour voter pour cette suggestion ici: stats.stackexchange.com/tags/random-allocation/synonymes - il faut maintenant 4 votes positifs pour passer. Si vous n'êtes pas d'accord avec la proposition, pensez à commenter Meta pour expliquer pourquoi. Je supprimerai bientôt ce commentaire. À votre santé.
Si le résultat dépend du traitement ainsi que d'autres facteurs observables, le contrôle de ce dernier améliore souvent la précision de l'estimation de l'impact (c.-à-d. Que l'erreur-type de l'effet du traitement sera plus petite). Lorsque la taille de l'échantillon est petite, cela peut être utile.
Voici une simulation simple où même si le traitement est aléatoire, l'erreur standard diminue d'un tiers:
la source