Dans quelle mesure est-il problématique de contrôler les covariables non indépendantes dans une étude d'observation (c.-à-d. Non randomisée)?

11

Miller et Chapman (2001) soutiennent qu'il est absolument inapproprié de contrôler les covariables non indépendantes qui sont liées à la fois aux variables indépendantes et dépendantes dans une étude observationnelle (non randomisée) - même si cela se fait régulièrement en sciences sociales. Dans quelle mesure est-ce problématique de le faire? Quelle est la meilleure façon de résoudre ce problème? Si vous contrôlez régulièrement les covariables non indépendantes dans une étude d'observation dans votre propre recherche, comment la justifiez-vous? Enfin, est-ce un combat qui vaut la peine d'être choisi lorsque vous discutez de méthodologie avec vos collègues (c'est-à-dire, est-ce vraiment important)?

Merci

Miller, GA et Chapman, JP (2001). Analyse des malentendus de la covariance. Journal of Abnormal Psychology, 110, 40-48. - http://mres.gmu.edu/pmwiki/uploads/Main/ancova.pdf

Patrick
la source
La question suivante sur "l'explication intuitive de la multicolinéarité" peut être utile dans le contexte ci-dessus.

Réponses:

4

C'est aussi problématique que le degré de corrélation.

L'ironie est que vous ne prendriez pas la peine de contrôler s'il n'y avait pas de corrélation attendue avec l'une des variables. Et, si vous vous attendez à ce que votre variable indépendante affecte votre personne à charge, elle est nécessairement quelque peu corrélée aux deux. Cependant, s'il est fortement corrélé entre eux, vous ne devriez peut-être pas le contrôler, car cela revient à contrôler la variable indépendante ou dépendante réelle.

John
la source
Je sais que c'est une vieille réponse, mais avez-vous des références qui vont plus en détail par rapport à. votre première ligne, en particulier ceux qui en discutent avec une référence explicite à Miller & Chapman?
jona
4

En sciences sociales, nous appelons souvent cette question «biais post-traitement». Si vous envisagez l'effet d'un traitement (votre variable indépendante), y compris les variables qui surviennent après le traitement (dans un sens causal), alors votre estimation de l'effet du traitement peut être biaisée. Si vous incluez ces variables, vous contrôlez en quelque sorte l'impact du traitement. Si le traitement T provoque le résultat Y et que d'autres variables A et A provoquent Y, le contrôle de A ignore l'impact de T sur Y via A. Ce biais peut être positif ou négatif.

Dans les sciences sociales, cela peut être particulièrement difficile car A peut provoquer T, qui se nourrit de A, et A et T provoquent tous les deux Y. Par exemple, un PIB élevé peut conduire à des niveaux élevés de démocratisation (notre traitement), ce qui conduit à un PIB plus élevé, un PIB plus élevé et une démocratisation plus élevée conduisent tous deux à moins de corruption gouvernementale, par exemple. Puisque le PIB provoque la démocratisation, si nous ne le contrôlons pas, nous avons alors un problème d'endogénéité ou «biais de variables omises». Mais si nous contrôlons le PIB, nous avons un biais post-traitement. À part utiliser des essais randomisés lorsque nous le pouvons, il n'y a pas grand-chose d'autre à faire pour diriger notre navire entre Scylla et Charybdis. Gary King parle de ces questions comme de sa nomination pour l'initiative "Les problèmes les plus difficiles non résolus dans les sciences sociales" de Harvard ici .

Charlie
la source
3

Selon moi, il y a deux problèmes fondamentaux avec les études d'observation qui "contrôlent" un certain nombre de variables indépendantes. 1) Vous avez le problème de manquer des variables explicatives et donc une mauvaise spécification du modèle. 2) Vous avez le problème de plusieurs variables indépendantes corrélées - un problème qui n'existe pas dans les expériences (bien) conçues - et le fait que les coefficients de régression et les tests ANCOVA des covariables sont basés sur des partiels, ce qui les rend difficiles à interpréter. La première est intrinsèque à la nature de la recherche observationnelle et est abordée dans le contexte scientifique et le processus d'élaboration compétitive. Ce dernier est une question d'éducation et repose sur une compréhension claire des modèles de régression et d'ANCOVA et de ce que ces coefficients représentent exactement.

En ce qui concerne le premier problème, il est assez facile de démontrer que si toutes les influences sur une variable dépendante sont connues et incluses dans un modèle, les méthodes statistiques de contrôle sont efficaces et produisent de bonnes prévisions et estimations des effets pour les variables individuelles. Le problème dans les "sciences douces" est que toutes les influences pertinentes sont rarement incluses ou même connues et donc les modèles sont mal spécifiés et difficiles à interpréter. Pourtant, de nombreux problèmes intéressants existent dans ces domaines. Les réponses manquent tout simplement de certitude. La beauté du processus scientifique est qu'il est auto-correcteur et que les modèles sont questionnés, élaborés et raffinés. L'alternative est de suggérer que nous ne pouvons pas enquêter scientifiquement sur ces questions lorsque nous ne pouvons pas concevoir d'expériences.

Le deuxième problème est un problème technique de la nature des modèles ANCOVA et de régression. Les analystes doivent être clairs sur ce que ces coefficients et tests représentent. Les corrélations entre les variables indépendantes influencent les coefficients de régression et les tests ANCOVA. Ce sont des tests de partiels. Ces modèles extraient la variance d'une variable indépendante donnée et de la variable dépendante qui sont associées à toutes les autres variables du modèle, puis examinent la relation entre ces résidus. Par conséquent, les coefficients et tests individuels sont très difficiles à interpréter en dehors du contexte d'une compréhension conceptuelle claire de l'ensemble des variables incluses et de leurs interrelations. Cependant, cela ne pose AUCUN problème de prévision - soyez prudent dans l'interprétation des tests et des coefficients spécifiques.

Une remarque: ce dernier problème est lié à un problème discuté précédemment dans ce forum sur l'inversion des signes de régression - par exemple, du négatif au positif - lorsque d'autres prédicteurs sont introduits dans un modèle. En présence de prédicteurs corrélés et sans une compréhension claire des relations multiples et complexes entre l'ensemble des prédicteurs, il n'y a aucune raison de s'attendre à ce qu'un coefficient de régression (par nature partiel) ait un signe particulier. Lorsqu'il existe une théorie solide et une compréhension claire de ces interrelations, de tels «renversements» de signes peuvent être instructifs et théoriquement utiles. Bien que, compte tenu de la complexité de nombreux problèmes de sciences sociales, une compréhension suffisante ne soit pas courante, je m'attendrais.

Avertissement: Je suis sociologue et analyste des politiques publiques de formation.

Brett
la source
2

J'ai lu la première page de leur article et j'ai donc peut-être mal compris leur point, mais il me semble qu'ils discutent essentiellement du problème de l'inclusion de variables indépendantes multi-colinéaires dans l'analyse. L'exemple qu'ils prennent de l'âge et du grade illustre cette idée car ils déclarent que:

L'âge est si intimement associé au niveau scolaire que la suppression de la variance de la capacité de basket-ball associée à l'âge éliminerait une variance considérable (peut-être presque la totalité) de la capacité de basket-ball associée au niveau scolaire

L'ANCOVA est une régression linéaire avec les niveaux représentés comme des variables muettes et les covariables apparaissant également comme des variables indépendantes dans l'équation de régression. Ainsi, à moins que j'aie mal compris leur point (ce qui est tout à fait possible car je n'ai pas lu leur article complètement), il semble qu'ils disent `` n'inclut pas les covariables dépendantes '' ce qui revient à dire éviter les variables multi-colinéaires.


la source
Leur argument ne concerne pas des variables corrélées en soi, mais des variables pratiquement inséparables les unes des autres. Variables pour lesquelles on pourrait presque dire "cela n'a pas de sens sans cela". Plutôt que le degré de corrélation, qui peut être évalué statistiquement, la question est à régler conceptuellement. Le grade peut-il augmenter sans augmenter l'âge? À peine. La dépression peut-elle s'intensifier sans augmentation de l'anxiété? C'est plus difficile.
rolando2
1

Le (plus grand) problème est que, parce que la ou les variables de groupe et les covariables sont ensemble du côté prédicteur de l'équation, la ou les variables de groupe ne sont plus la ou les variables de groupe, elles sont ces variables dont la covariable est partielle, elles ne sont donc plus reconnaissables ou interprétables comme les variables de groupe que vous pensiez étudier. Énorme problème.

La ligne clé se trouve à la page 45 "L'ANCOVA supprime la variance significative du" Groupe ", laissant une variable résiduelle résiduelle non caractérisée avec une relation incertaine à la construction que le Groupe représentait".

Ma solution actuelle consiste à séparer la covariable du DV, puis à soumettre le résidu DV à une ANOVA régulière, comme alternative à l'utilisation de l'ANCOVA.

Todd
la source
2
Mais c'est la même chose qu'ancova?!
0

Certains des outils d'appariement développés par Gary King et ses collègues semblent prometteurs:

Jeromy Anglim
la source
Le deuxième lien n'est plus à jour.
rolando2
Parmi les nombreux outils logiciels répertoriés, lequel recommandez-vous?
rolando2