Effets fixes dans le modèle de traitement

2

Bonjour dans un modèle de traitement simple

$$ y = \ beta_0 + \ beta_1w + e $$

où $ w $ est l'unité de traitement par groupe. Si vous ajoutez des variables nominales pour que les groupes contrôlent les différences. J'ai lu quelque part que vous ne devriez jamais, mais je ne me souviens pas où ni pourquoi.

user4326
la source
Quelques précisions, s'il vous plaît: y at-il deux groupes, un traité, un non traité? En outre, par "ajouter des variables nominales pour que les groupes contrôlent les différences", vous voulez dire différentes variables de contrôle qui reflètent l’existence ou non de caractéristiques binaires dans les deux groupes? Par exemple, si le traitement est "vaccination", vous vous demandez si vous devez également inclure un mannequin pour indiquer un sujet homme / femme?
Alecos Papadopoulos
Je veux dire plusieurs groupes dont certains n'ont pas été traités, mais le traitement n'est pas aléatoire et certaines caractéristiques spécifiques du groupe peuvent être corrélées avec le traitement et affecter les résultats potentiels. Pour contrôler ces caractéristiques, vous pouvez ajouter des nuls binaires par groupe.
user4326
Vous devriez mettre à jour la question, pas seulement élaborer dans les commentaires.
BKay

Réponses:

1

Cela ressemble à l'exigence standard "supprimer un mannequin" lorsque des caractéristiques binaires sont incluses dans la régression linéaire - car sinon, nous obtiendrons une multicolinéarité parfaite et aucune solution.

Supposons que vous avez trois sous-groupes, séparés par l'âge: Y (jeune), UNE (dult), O (ld). Vous avez des raisons de croire que l'effet du traitement est en corrélation avec le groupe d'âge et vous souhaitez contrôler cette association. Si vous incluez trois variables factices dans la régression, vous obtiendrez une parfaite mutlicolinéarité, car si vous additionnez ces trois colonnes de la matrice de régression, vous obtenez une série de valeurs déjà présentes dans la matrice. , puisqu’il existe déjà un terme constant et donc un régresseur constitué d’une série d’On.

Dans de tels cas, nous excluons de la matrice des régresseurs l’un des trois mannequins (pour de nombreuses raisons, il est ne pas une bonne idée de supprimer le terme constant au lieu d’un des nuls). Cela a pour effet que l'interprétation des résultats devient conditionnelle au groupe dont nous avons exclu la valeur factice: si, disons, nous spécifions

$$ y = \ beta_0 + \ beta_1w + \ gamma_1A + \ gamma_2O + e $$

alors $ \ gamma_1 $ mesures combien plus (ou moins, si négatif) être adulte affecte le résultat, comparé à être jeune, et $ \ gamma_2 $ de façon analogue à vieux.

Des situations de multicolinéarité parfaite (ou presque) peuvent néanmoins se produire même dans cette approche, en fonction également de la nature et de la distribution des valeurs de la variable dépendante. Si la variable dépendante est également binaire, de telles possibilités augmentent, car nous pouvons avoir des phénomènes de "séparation complète / prédiction parfaite", etc.

En général, l'inclusion de contrôles dans les régressions de traitement est une approche standard et très raisonnable. Comprenant nuls en tant que témoins, peuvent avoir les complications susmentionnées.

Alecos Papadopoulos
la source
Disons donc que tout le monde dans le groupe a le même traitement, alors incluez-vous toujours les nuls?
user4326
1
Une fois que vous entrez dans des cas spécifiques, il n'y a généralement pas de "oui" ou de "non" défini, pour des raisons algébriques et la manière dont les estimateurs sont calculés. Parfois, vous devez exécuter le modèle pour vérifier si de tels problèmes surviennent. J'ai ajouté un petit quelque chose à la réponse.
Alecos Papadopoulos