Une hypothèse de base de l'utilisation de modèles de régression pour l'inférence est que «tous les prédicteurs pertinents» ont été inclus dans l'équation de prédiction. La justification est que le fait de ne pas inclure un facteur important du monde réel conduit à des coefficients biaisés et donc à des inférences inexactes (c.-à-d., Biais variable omis).
Mais dans la pratique de la recherche, je n'ai jamais vu personne incluant quoi que ce soit ressemblant à "tous les prédicteurs pertinents". De nombreux phénomènes ont une myriade de causes importantes et il serait très difficile, voire impossible, de les inclure tous. Un exemple spontané est la modélisation de la dépression comme résultat: personne n'a construit quelque chose de proche d'un modèle qui inclut "toutes les variables pertinentes": par exemple, l'histoire parentale, les traits de personnalité, le soutien social, le revenu, leurs interactions, etc., etc...
De plus, l'ajustement d'un modèle aussi complexe conduirait à des estimations très instables à moins qu'il n'y ait de très grands échantillons.
Ma question est très simple: l'hypothèse / le conseil «d'inclure tous les prédicteurs pertinents» est-il juste quelque chose que nous «disons» mais ne signifie jamais réellement? Sinon, pourquoi le donnons-nous en tant que véritable conseil de modélisation?
Et cela signifie-t-il que la plupart des coefficients sont probablement trompeurs? (par exemple, une étude sur les facteurs de personnalité et la dépression qui n'utilise que plusieurs prédicteurs). En d'autres termes, quelle est l'ampleur du problème pour les conclusions de nos sciences?
Réponses:
Vous avez raison - nous sommes rarement réalistes en disant "tous les prédicteurs pertinents". En pratique , nous pouvons être satisfaits , y compris prédicteurs qui expliquent les principales sources de variation de . Dans le cas particulier de la déduction d'un facteur de risque ou d'un traitement dans une étude observationnelle, cela est rarement suffisant. Pour cela, l'ajustement pour la confusion doit être très agressif, y compris les variables qui pourraient être liées au résultat et pourraient être liées au choix du traitement ou au facteur de risque que vous essayez de faire connaître.Oui
Il est intéressant de noter qu'avec le modèle linéaire normal, les covariables omises, en particulier si elles sont orthogonales aux covariables incluses, peuvent être considérées comme un simple élargissement du terme d'erreur. Dans les modèles non linéaires (logistique, Cox, bien d'autres), l'omission de variables peut biaiser les effets de toutes les variables incluses dans le modèle (en raison de la non-collapsibilité du rapport de cotes, par exemple).
la source
Oui, vous devez inclure toutes les "variables pertinentes", mais vous devez être intelligent à ce sujet. Vous devez penser aux moyens de construire des expériences qui isoleraient l'impact de votre phénomène de choses non liées, ce qui est une abondance dans le monde réel (par opposition à une salle de classe). Avant d'entrer dans les statistiques, vous devez faire le gros du travail dans votre domaine, pas dans les statistiques.
Je vous encourage à ne pas être cynique à propos de l'inclusion de toutes les variables pertinentes, car ce n'est pas seulement un objectif noble mais aussi parce que c'est souvent possible. Nous ne disons pas cela simplement pour le dire. Nous le pensons vraiment. En fait, concevoir des expériences et des études qui peuvent inclure toutes les variables pertinentes est ce qui rend la science vraiment intéressante et différente des "expériences" de plaques de chaudière mécaniques.
Pour motiver ma déclaration, je vais vous donner un exemple de la façon dont Galileo a étudié l'accélération. Voici sa description d'une expérience réelle (à partir de cette page Web ):
Faites attention à la façon dont il a mesuré le temps. C'est tellement grossier que cela me rappelle comment ces jours-ci les sciences non naturelles mesurent leurs variables, pensent à la «satisfaction du client» ou à «l'utilité». Il mentionne que l'erreur de mesure se situait dans le dixième d'une unité de temps, en passant.
At-il inclus toutes les variables pertinentes? Oui il l'a fait. Maintenant, vous devez comprendre que tous les corps sont attirés les uns par les autres par la gravité. Donc, en théorie, pour calculer la force exacte sur la balle, vous devez ajouter tous les corps de l'univers à l'équation. De plus, plus important encore, il n'a pas inclus la résistance de surface, la traînée d'air, le moment angulaire, etc. Est-ce que tout cela a eu un impact sur ses mesures? Oui. Cependant, ils n'étaient pas pertinents pour ce qu'il étudiait, car il était en mesure de réduire ou d'éliminer leur impact en isolant l'impact de la propriété qu'il étudiait.
la source
Pour que les hypothèses du modèle de régression se maintiennent parfaitement, tous les prédicteurs pertinents doivent être inclus. Mais aucune des hypothèses de toute analyse statistique ne tient parfaitement et une grande partie de la pratique statistique est basée sur "assez proche".
Avec la conception d'expériences et la randomisation appropriée, l'effet des termes non inclus dans les modèles peut souvent être ignoré (supposé égal par le risque de randomisation). Mais, la régression est généralement utilisée lorsque la randomisation complète n'est pas possible pour tenir compte de toutes les variables possibles non incluses dans le modèle, donc votre question devient importante.
Presque tous les modèles de régression qui correspondent ne contiennent probablement pas de prédicteurs potentiels, mais "je ne sais pas" sans plus de précision ne permettrait pas aux statisticiens de continuer à travailler, nous essayons donc de notre mieux, puis essayons de déterminer dans quelle mesure la différence entre les hypothèses et la réalité affectera nos résultats. Dans certains cas, la différence avec les hypothèses fait très peu de différence et nous ne nous inquiétons pas beaucoup de la différence, mais dans d'autres cas, cela peut être très grave.
Une option lorsque vous savez qu'il peut y avoir des prédicteurs qui n'ont pas été inclus dans le modèle qui serait pertinent est de faire une analyse de sensibilité. Cela mesure le biais possible en fonction des relations potentielles avec la ou les variables non mesurées. Ce papier:
donne quelques outils (et exemples) d'une analyse de sensibilité.
la source