Faut-il vraiment inclure "tous les prédicteurs pertinents?"

15

Une hypothèse de base de l'utilisation de modèles de régression pour l'inférence est que «tous les prédicteurs pertinents» ont été inclus dans l'équation de prédiction. La justification est que le fait de ne pas inclure un facteur important du monde réel conduit à des coefficients biaisés et donc à des inférences inexactes (c.-à-d., Biais variable omis).

Mais dans la pratique de la recherche, je n'ai jamais vu personne incluant quoi que ce soit ressemblant à "tous les prédicteurs pertinents". De nombreux phénomènes ont une myriade de causes importantes et il serait très difficile, voire impossible, de les inclure tous. Un exemple spontané est la modélisation de la dépression comme résultat: personne n'a construit quelque chose de proche d'un modèle qui inclut "toutes les variables pertinentes": par exemple, l'histoire parentale, les traits de personnalité, le soutien social, le revenu, leurs interactions, etc., etc...

De plus, l'ajustement d'un modèle aussi complexe conduirait à des estimations très instables à moins qu'il n'y ait de très grands échantillons.

Ma question est très simple: l'hypothèse / le conseil «d'inclure tous les prédicteurs pertinents» est-il juste quelque chose que nous «disons» mais ne signifie jamais réellement? Sinon, pourquoi le donnons-nous en tant que véritable conseil de modélisation?

Et cela signifie-t-il que la plupart des coefficients sont probablement trompeurs? (par exemple, une étude sur les facteurs de personnalité et la dépression qui n'utilise que plusieurs prédicteurs). En d'autres termes, quelle est l'ampleur du problème pour les conclusions de nos sciences?

ATJ
la source
6
Une version de cet argument a fait rage en psychologie, économie et sciences sociales tout au long du XIXe siècle. Les scientifiques ont fait valoir que les méthodes statistiques étaient inapplicables aux personnes et aux systèmes sociaux parce que les gens sont trop variés et complexes. À la fin de ce siècle, l'utilité l'emporta sur la philosophie: même si nous n'incluons pas tous les prédicteurs, nous pouvons encore apprendre beaucoup. Il est judicieux d'inclure "pertinent" dans le titre.
whuber

Réponses:

18

Vous avez raison - nous sommes rarement réalistes en disant "tous les prédicteurs pertinents". En pratique , nous pouvons être satisfaits , y compris prédicteurs qui expliquent les principales sources de variation de . Dans le cas particulier de la déduction d'un facteur de risque ou d'un traitement dans une étude observationnelle, cela est rarement suffisant. Pour cela, l'ajustement pour la confusion doit être très agressif, y compris les variables qui pourraient être liées au résultat et pourraient être liées au choix du traitement ou au facteur de risque que vous essayez de faire connaître.Oui

Il est intéressant de noter qu'avec le modèle linéaire normal, les covariables omises, en particulier si elles sont orthogonales aux covariables incluses, peuvent être considérées comme un simple élargissement du terme d'erreur. Dans les modèles non linéaires (logistique, Cox, bien d'autres), l'omission de variables peut biaiser les effets de toutes les variables incluses dans le modèle (en raison de la non-collapsibilité du rapport de cotes, par exemple).

Frank Harrell
la source
Merci pour cette information utile. Mis à part l'évaluation des effets du traitement, j'aimerais en savoir plus sur les implications pragmatiques de ce problème. Si vous avez examiné un document et que des prédicteurs clairement importants ont été omis, cela pourrait-il être un motif de rejet? Je pose cette question parce que a.) Je n'ai jamais entendu parler de cela et b.) Les spécialistes des sciences sociales incluent souvent SEULEMENT les prédicteurs dont ils souhaitent en savoir plus (c.-à-d. Le sujet de l'étude) et négligent les facteurs "déjà connus" ( basé sur la nécessité d'une mesure plus efficace).
ATJ
Par exemple, il n'est pas rare de voir un modèle de variable latente avec seulement un seul prédicteur pour une variable endogène. Cela signifie-t-il l'écart entre le domaine des statistiques et sa mise en œuvre dans des domaines réels?
ATJ
6
C'est probablement le cas. À la question précédente, les motifs de rejet incluraient l'omission de variables importantes dont l'inclusion aurait donné une interprétation différente des variables incluses ou qui aurait radicalement changé le modèle. J'ai une fois passé en revue un article sur le risque de cancer du poumon qui n'était disponible que si un sujet avait déjà fumé ou non, et les auteurs n'ont pas tenté d'évaluer la dose de tabac (par exemple, pack-années). J'ai recommandé un rejet pur et simple.
Frank Harrell
9

Oui, vous devez inclure toutes les "variables pertinentes", mais vous devez être intelligent à ce sujet. Vous devez penser aux moyens de construire des expériences qui isoleraient l'impact de votre phénomène de choses non liées, ce qui est une abondance dans le monde réel (par opposition à une salle de classe). Avant d'entrer dans les statistiques, vous devez faire le gros du travail dans votre domaine, pas dans les statistiques.

Je vous encourage à ne pas être cynique à propos de l'inclusion de toutes les variables pertinentes, car ce n'est pas seulement un objectif noble mais aussi parce que c'est souvent possible. Nous ne disons pas cela simplement pour le dire. Nous le pensons vraiment. En fait, concevoir des expériences et des études qui peuvent inclure toutes les variables pertinentes est ce qui rend la science vraiment intéressante et différente des "expériences" de plaques de chaudière mécaniques.

Pour motiver ma déclaration, je vais vous donner un exemple de la façon dont Galileo a étudié l'accélération. Voici sa description d'une expérience réelle (à partir de cette page Web ):

Un morceau de moulure ou de scantling en bois, d'environ 12 coudées de long, une demi-coudée de large et trois largeurs de doigt, a été pris; sur son bord était coupé un canal d'un peu plus d'un doigt de largeur; ayant rendu cette rainure très droite, lisse et polie, et l'ayant tapissée de parchemin, aussi lisse et poli que possible, nous avons roulé le long d'une boule de bronze dure, lisse et très ronde. Après avoir placé cette planche dans une position inclinée, en élevant une extrémité d'une ou deux coudées au-dessus de l'autre, nous avons fait rouler la balle, comme je disais juste, le long du canal, notant, d'une manière qui sera décrite actuellement, le temps nécessaire faire la descente. Nous avons répété cette expérience plus d'une fois afin de mesurer le temps avec une précision telle que l'écart entre deux observations ne dépassait jamais le dixième d'un battement d'impulsion. Après avoir effectué cette opération et nous étant assurés de sa fiabilité, nous n'avons maintenant roulé le ballon que sur un quart de la longueur du canal; et ayant mesuré le temps de sa descente, nous l'avons trouvé précisément la moitié de la première. Ensuite, nous avons essayé d'autres distances, comparé le temps pour toute la longueur avec celui de la moitié, ou avec celui des deux tiers ou des trois quarts, ou même pour n'importe quelle fraction; dans de telles expériences, répétées une centaine de fois, nous avons toujours constaté que les espaces traversés étaient les uns aux autres comme les carrés du temps, et cela était vrai pour toutes les inclinaisons de l'avion, c'est-à-dire du canal, le long duquel nous roulions le Balle. Nous avons également observé que les temps de descente, pour diverses inclinaisons de l'avion, s'alignaient précisément ce rapport qui, comme nous le verrons plus loin,

Pour la mesure du temps, nous avons utilisé un grand récipient d'eau placé en position élevée; au fond de cette cuve était soudé un tuyau de petit diamètre donnant un mince jet d'eau que nous recueillions dans un petit verre pendant le temps de chaque descente, que ce soit sur toute la longueur du canal ou sur une partie de sa longueur; l'eau ainsi recueillie a été pesée, après chaque descente, sur une balance très précise; les différences et les rapports de ces poids nous ont donné les différences et les rapports des temps, et ceci avec une précision telle que, bien que l'opération ait été répétée de nombreuses fois, il n'y avait pas de divergence appréciable dans les résultats.

=gt2,
gt0=1t0jetje0/jet02/tje2
0je=t02tje2

Faites attention à la façon dont il a mesuré le temps. C'est tellement grossier que cela me rappelle comment ces jours-ci les sciences non naturelles mesurent leurs variables, pensent à la «satisfaction du client» ou à «l'utilité». Il mentionne que l'erreur de mesure se situait dans le dixième d'une unité de temps, en passant.

At-il inclus toutes les variables pertinentes? Oui il l'a fait. Maintenant, vous devez comprendre que tous les corps sont attirés les uns par les autres par la gravité. Donc, en théorie, pour calculer la force exacte sur la balle, vous devez ajouter tous les corps de l'univers à l'équation. De plus, plus important encore, il n'a pas inclus la résistance de surface, la traînée d'air, le moment angulaire, etc. Est-ce que tout cela a eu un impact sur ses mesures? Oui. Cependant, ils n'étaient pas pertinents pour ce qu'il étudiait, car il était en mesure de réduire ou d'éliminer leur impact en isolant l'impact de la propriété qu'il étudiait.

t2

Aksakal presque sûrement binaire
la source
Qu'est-ce qui est si grossier dans sa méthode de mesure du temps? La configuration aura un taux spécifique auquel l'eau quittera le grand récipient et entrera dans la tasse; en supposant que le navire contient une grande quantité d'eau, ce taux changera de façon minimale. Plus important encore, il restera cohérent d'une expérience à l'autre. C'est en fait une méthode très élégante, car ils n'avaient pas de chronomètres et de minuteries automatiques à l'époque.
JAB
@JAB, ce n'est brut qu'en comparaison avec le chronomètre ou les moyens modernes de mesurer le temps, bien sûr. Vous avez tout à fait raison, il est très élégant compte tenu de l'état de l'art de la mesure du temps à l'époque de Galileo. Cependant, le point que je faisais était que même une précision aussi faible en apparence (1/10 d'un intervalle) était encore suffisante pour observer la relation entre le temps et la distance
Aksakal presque sûrement binaire
@JAB, l'un de mes exemples préférés de méthodes de mesure ridicules en physique réside dans la façon dont Cherenkov a découvert son rayonnement . Il s'asseyait dans une pièce sombre jusqu'à ce que ses yeux soient ajustés à l'obscurité, puis il ouvrait ou fermait le trou avec la lumière qui en venait jusqu'à ce que la lumière disparaisse. Il enregistrerait la quantité d'un trou ouvert pour détecter le niveau de rayonnement. Apparemment, l'œil humain peut détecter la différence de lumière mesurée dans une poignée de photons! Le document fait 3 pages.
Aksakal presque sûrement binaire
6

Pour que les hypothèses du modèle de régression se maintiennent parfaitement, tous les prédicteurs pertinents doivent être inclus. Mais aucune des hypothèses de toute analyse statistique ne tient parfaitement et une grande partie de la pratique statistique est basée sur "assez proche".

Avec la conception d'expériences et la randomisation appropriée, l'effet des termes non inclus dans les modèles peut souvent être ignoré (supposé égal par le risque de randomisation). Mais, la régression est généralement utilisée lorsque la randomisation complète n'est pas possible pour tenir compte de toutes les variables possibles non incluses dans le modèle, donc votre question devient importante.

Presque tous les modèles de régression qui correspondent ne contiennent probablement pas de prédicteurs potentiels, mais "je ne sais pas" sans plus de précision ne permettrait pas aux statisticiens de continuer à travailler, nous essayons donc de notre mieux, puis essayons de déterminer dans quelle mesure la différence entre les hypothèses et la réalité affectera nos résultats. Dans certains cas, la différence avec les hypothèses fait très peu de différence et nous ne nous inquiétons pas beaucoup de la différence, mais dans d'autres cas, cela peut être très grave.

Une option lorsque vous savez qu'il peut y avoir des prédicteurs qui n'ont pas été inclus dans le modèle qui serait pertinent est de faire une analyse de sensibilité. Cela mesure le biais possible en fonction des relations potentielles avec la ou les variables non mesurées. Ce papier:

Lin, DY et Psaty, BM et Kronmal, RA. (1998): Évaluation de la sensibilité des résultats de la régression aux facteurs de confusion non mesurés dans les études observationnelles. Biometrics, 54 (3), sept., Pp. 948-963.

donne quelques outils (et exemples) d'une analyse de sensibilité.

Greg Snow
la source