Quelle est la différence entre le contrôle d'une variable dans un modèle de régression et le contrôle d'une variable dans le plan de votre étude?

11

J'imagine que le contrôle d'une variable dans votre plan d'étude est plus efficace pour réduire l'erreur que le contrôle post-hoc dans votre modèle de régression.

Quelqu'un voudrait-il expliquer officiellement en quoi ces deux exemples de «contrôle» diffèrent? Dans quelle mesure sont-ils relativement efficaces pour réduire les erreurs et produire des prévisions plus précises?

mrt
la source

Réponses:

13

En «contrôlant une variable dans votre plan d'étude», je suppose que vous entendez faire en sorte qu'une variable soit constante dans toutes les unités d'étude ou manipuler une variable de sorte que le niveau de cette variable soit défini indépendamment pour chaque unité d'étude. C'est-à-dire que le contrôle d'une variable dans la conception de votre étude signifie que vous menez une véritable expérience . L'avantage de cela est qu'il peut aider à déduire la causalité .

En théorie, le contrôle d'une variable dans votre modèle de régression peut également aider à déduire la causalité. Cependant, ce n'est le cas que si vous contrôlez pour chaque variable ayant une connexion causale directe à la réponse. Si vous omettez une telle variable (peut-être que vous ne saviez pas l'inclure) et qu'elle est corrélée avec l'une des autres variables, vos inférences causales seront biaisées et incorrectes. En pratique, nous ne connaissons pas toutes les variables pertinentes, donc le contrôle statistique est une entreprise assez risquée qui repose sur de grandes hypothèses que vous ne pouvez pas vérifier.

Cependant, votre question porte sur «la réduction des erreurs et la production de prévisions plus précises», sans déduire la causalité. C'est un problème différent. Si vous deviez faire en sorte qu'une variable donnée soit constante dans votre plan d'étude, toute la variabilité de la réponse due à cette variable serait éliminée. D'un autre côté, si vous contrôlez simplement une variable, vous estimez son effet qui est sujet à une erreur d'échantillonnage au minimum. En d'autres termes, le contrôle statistique ne serait pas aussi efficace, à long terme, pour réduire la variance résiduelle dans votre échantillon.

Mais si vous souhaitez réduire les erreurs et obtenir des prévisions plus précises, il est probable que vous vous souciez principalement des propriétés hors échantillon, et non de la précision de votre échantillon. Et c'est là que réside le hic. Lorsque vous contrôlez une variable en la manipulant sous une certaine forme (en la maintenant constante, etc.), vous créez une situation qui est plus artificielle que l'observation naturelle d'origine. Autrement dit, les expériences ont tendance à avoir moins de validité / généralisation externe que les études observationnelles.


Dans le cas où ce n'est pas clair, un exemple d'une véritable expérience qui maintient quelque chose de constant pourrait être d'évaluer un traitement dans un modèle de souris en utilisant des souris consanguines qui sont toutes génétiquement identiques. D'un autre côté, un exemple de contrôle d'une variable pourrait être de représenter les antécédents familiaux de maladie par un code fictif et d'inclure cette variable dans un modèle de régression multiple (cf., Comment exactement un «contrôle-t-il pour d'autres variables»?, Et comment l'ajout d'un 2e IV peut-il rendre le 1er IV significatif? ).

gung - Réintégrer Monica
la source
1
Bonnes explications! @gung
Aaron Zeng