Je lance souvent des régressions à partir d'un ensemble de données à faible n (~ 100 observations). Souvent, les résultats ne sont significatifs qu'avec l'inclusion de variables de contrôle. Cependant, je vois souvent des articles de revues où des gens (toujours avec un grand nombre d'observations) affirment avoir effectué leur régression "avec et sans variables de contrôle".
Pourquoi les gens exécutent-ils souvent une régression avec et sans variables de contrôle?
least-squares
ChrisStata
la source
la source
Réponses:
Un peu en termes d'abord. Par définition, la variable de contrôle est maintenue constante tout au long de l'étude, vous ne pouvez donc pas l'utiliser dans la régression. Vous voulez probablement dire des variables qui devraient être contrôlées statistiquement . Telles que les covariables ou les facteurs de blocage (comme après la conception expérimentale de blocs randomisés)
Les gens exécutent la régression ou l'ANOVA avec de telles variables non seulement pour éliminer leur effet des variables prédictives, mais surtout pour vérifier si leur propre effet est significatif. S'il est significatif, leur inclusion dans le modèle est pleinement justifiée. Sinon, il vaut mieux les exclure du modèle.
Ceci est surtout important pour un facteur de blocage. Si vous le laissez dans le modèle bien qu'il ne soit pas significatif, vous risquez de manquer l'effet des variables prédictives en raison de la diminution du terme d'erreur df , - le facteur de blocage diminue à la fois l'erreur et son df , et il apparaît une situation concurrentielle. L'importance des prédicteurs peut baisser ou augmenter selon "ce qui gagne" - chute de la somme des carrés d'erreur de chute de son df . Cela peut être la raison pour laquelle les gens préfèrent parfois des modèles plus concis.
Une autre raison à cela peut être que pour un échantillon aussi modéré que 100 inclusions, de nombreux IV, même s'ils semblent tous importants ou significatifs, conduisent à un sur- ajustement .
la source
Une autre raison d'inclure les covariables est qu'elles sont importantes dans la littérature. Si vous pouvez démontrer qu'une covariable qui s'est avérée avoir eu de grands effets dans le passé (seule ou en affectant d'autres paramètres) n'a PAS de grands effets dans votre étude, alors vous avez découvert quelque chose d'intéressant.
la source
En règle générale, cela signifie qu'il existe une régression avec un résultat et une variable de traitement. Ensuite, il y a d'autres contrôles qui pourraient être ajoutés au modèle --- d'autres covariables qui peuvent être importantes. Les auteurs ont d'abord exécuté un modèle simple qui ne comprend que le traitement. Ensuite, ils vérifient la robustesse de leurs résultats à l'inclusion d'autres variables. En particulier, ils demandent si l'inclusion d'autres covariables réduit ou élimine l'impact estimé dans le modèle simple.
De plus, l'inclusion d'autres covariables réduit généralement les erreurs standard. Dans ce cas, les auteurs peuvent constater que l'impact estimé est relativement similaire entre le modèle simple et celui qui inclut les contrôles, mais ce n'est que dans ce dernier que l'estimation est significative (généralement différente de 0). Les auteurs utiliseraient alors ce dernier modèle pour effectuer l'inférence (tests d'hypothèse, intervalles de confiance) en raison de ses erreurs standard plus petites.
la source
En plus des réponses ci-dessus, il existe certaines techniques de sélection de covariables qui impliquent la comparaison de modèles avec et sans variable en place. Et si l'on veut illustrer l'effet de l'ajout d'une covariable, le modèle brut (non ajusté) est nécessaire comme référence en premier lieu.
la source