J'ai eu dans le passé un certain nombre de questions posées à mon sujet concernant des articles publiés dans un certain nombre de domaines où des régressions (et des modèles connexes, tels que des modèles de panel ou des GLM) sont utilisées sur des données d'observation (c'est-à-dire des données non produites par une expérience contrôlée) , dans de nombreux cas - mais pas toujours - données observées dans le temps) mais où aucune tentative d'introduction de variables instrumentales n'est effectuée.
J'ai fait un certain nombre de critiques en réponse (telles que la description de problèmes de biais lorsque des variables importantes peuvent être manquantes), mais comme d'autres personnes ici seront sans doute beaucoup plus compétentes que moi sur ce sujet, je me suis dit que je demanderais:
Quels sont les principaux problèmes / conséquences d'essayer de tirer des conclusions sur les relations (en particulier, mais sans s'y limiter, les conclusions causales) dans de telles situations?
Peut-on faire quelque chose d'utile avec des études qui correspondent à de tels modèles en l'absence d'instruments?
Quelles sont les bonnes références (livres ou articles) sur les problèmes liés à une telle modélisation (de préférence avec une motivation non technique claire des conséquences, car généralement les personnes qui demandent ont des antécédents variés, certains sans beaucoup de statistiques) auxquels les gens pourraient se référer pour critiquer un document? Une discussion des précautions / problèmes avec les instruments serait également utile.
(Les références de base sur les variables instrumentales sont ici , bien que si vous en avez à ajouter, cela serait utile aussi.)
Des pointeurs vers de bons exemples pratiques de recherche et d'utilisation d'instruments seraient un bonus mais ne sont pas au cœur de cette question.
[Je vais probablement indiquer aux autres de bonnes réponses ici car de telles questions me viennent. Je peux ajouter un ou deux exemples au fur et à mesure que je les obtiens.]
la source