Voici l'article qui a motivé cette question: L'impatience fait-elle grossir?
J'ai aimé cet article et il illustre bien le concept de «contrôle des autres variables» (QI, carrière, revenu, âge, etc.) afin de mieux isoler la relation réelle entre les deux variables en question.
Pouvez-vous m'expliquer comment vous contrôlez réellement les variables d'un jeu de données typique?
Par exemple, si vous avez 2 personnes avec le même niveau d'impatience et le même IMC, mais des revenus différents, comment traitez-vous ces données? Les catégorisez-vous en différents sous-groupes qui ont un revenu, une patience et un IMC similaires? Mais, finalement, il y a des dizaines de variables à contrôler pour (QI, carrière, revenu, âge, etc.) Comment ensuite agrègez-vous (potentiellement) des centaines de sous-groupes? En fait, j'ai l'impression que cette approche est en train d'aboyer le mauvais arbre, maintenant que je l'ai verbalisée.
Merci d'avoir fait toute la lumière sur quelque chose que je voulais approfondir depuis quelques années ...!
Réponses:
Il y a plusieurs façons de contrôler les variables.
Le plus simple, et celui que vous avez proposé, est de stratifier vos données pour obtenir des sous-groupes présentant des caractéristiques similaires. Il existe ensuite des méthodes pour regrouper ces résultats afin d’obtenir une seule "réponse". Cela fonctionne si vous souhaitez contrôler un très petit nombre de variables, mais comme vous l'avez justement découvert, cela s'efface rapidement lorsque vous divisez vos données en fragments de plus en plus petits.
Une approche plus courante consiste à inclure les variables que vous souhaitez contrôler dans un modèle de régression. Par exemple, si vous avez un modèle de régression qui peut être décrit de manière conceptuelle comme suit:
L'estimation que vous obtiendrez pour Impatience sera l'effet de l'Impatience au niveau des autres covariables (la régression vous permet essentiellement de lisser les endroits où vous ne possédez pas beaucoup de données (le problème de l'approche de la stratification), bien que cela devrait être fait Avec précaution.
Il existe des moyens encore plus sophistiqués de contrôler les autres variables, mais les chances sont quand quelqu'un dit "contrôlé pour d'autres variables", ils signifient qu'ils ont été inclus dans un modèle de régression.
Bon, vous avez demandé un exemple sur lequel vous pouvez travailler, pour voir comment cela se passe. Je vous guiderai étape par étape. Tout ce dont vous avez besoin est une copie de R installée.
Premièrement, nous avons besoin de données. Coupez et collez les fragments de code suivants dans R. N'oubliez pas qu'il s'agit d'un exemple artificiel que j'ai inventé sur-le-champ, mais il montre le processus.
Ce sont vos données. Notez que nous connaissons déjà la relation entre le résultat, l'exposition et la covariable - tel est le sens de nombreuses études de simulation (dont il s'agit d'un exemple extrêmement basique. Vous commencez avec une structure que vous connaissez et vous vous assurez que votre méthode peut vous obtenez la bonne réponse.
Maintenant, passons au modèle de régression. Tapez ce qui suit:
Avez-vous eu une Interception = 2.0 et une exposition = 0.6766? Ou quelque chose de proche, étant donné qu'il y aura une variation aléatoire des données? Bien - cette réponse est fausse. Nous savons que c'est faux. Pourquoi c'est faux? Nous n'avons pas réussi à contrôler une variable qui affecte le résultat et l'exposition. C'est une variable binaire, faites-en ce que vous voulez - sexe, fumeur / non-fumeur, etc.
Maintenant, lancez ce modèle:
Cette fois, vous devriez obtenir des coefficients Intercept = 2,00, une exposition = 0,50 et une covariable de 0,25. Comme nous le savons, c’est la bonne réponse. Vous avez contrôlé d'autres variables.
Maintenant, que se passe-t-il lorsque nous ne savons pas si nous avons pris en compte toutes les variables dont nous avons besoin (nous ne le faisons jamais vraiment)? C'est ce qu'on appelle la confusion résiduelle et c'est une préoccupation dans la plupart des études d'observation - que nous avons contrôlé de manière imparfaite et que notre réponse, bien que proche de la droite, n'est pas exacte. Est-ce que ça aide plus?
la source
introduction
J'aime la réponse de @ EpiGrad (+1) mais laissez-moi prendre un point de vue différent. Dans ce qui suit, je fais référence à ce document PDF: "Analyse de régression multiple: Estimation" , qui comporte une section sur "Une interprétation de la régression multiple avec une interprétation partielle" (p. 83f.). Malheureusement, je n'ai aucune idée de qui est l'auteur de ce chapitre et je l'appellerai REGCHAPTER. Une explication similaire se trouve dans Kohler / Kreuter (2009), "Analyse de données à l'aide de Stata" , chapitre 8.2.3 "Que signifie" sous contrôle "?
Je vais utiliser l'exemple de @ EpiGrad pour expliquer cette approche. Le code R et les résultats figurent en annexe.
Il convient également de noter que le "contrôle des autres variables" n'a de sens que lorsque les variables explicatives sont modérément corrélées (colinéarité). Dans l'exemple susmentionné, la corrélation produit-moment entre
exposure
etcovariate
est de 0,50, c'est-à-direRésidus
Je suppose que vous avez une compréhension de base du concept de résidus dans l'analyse de régression. Voici l'explication de Wikipedia : "Si l'on effectue une régression sur certaines données, les déviations des observations de variable dépendante par rapport à la fonction ajustée sont les résidus".
Que signifie "sous contrôle"?
En contrôlant pour la variable
covariate
, l’effet (poids de régression) deexposure
suroutcome
peut être décrit comme suit (je suis négligé et saute la plupart des indices et tous les chapeaux, veuillez vous reporter au texte mentionné ci-dessus pour une description précise):exposure
surcovariate
, c'est-à-direLes "résidus [..] sont la partie de qui n'est pas corrélée avec . [...] Ainsi, mesure la relation d'échantillon entre et après que a été partialled out "(REGCHAPTER 84). "Partialled out" signifie "contrôlé pour".xi1 xi2 β^1 y x1 x2
Je vais démontrer cette idée en utilisant les exemples de données de @ EpiGrad. Tout d' abord, je régresse
exposure
surcovariate
. Puisque je ne m'intéresse qu'aux résiduslmEC.resid
, j'omets la sortie.La prochaine étape consiste à régresser
outcome
sur ces résidus (lmEC.resid
):Comme vous pouvez le constater, le poids de régression pourβlmEC.resid=0.50 0.50
lmEC.resid
(voir la colonne Estimation, ) dans cette régression simple est égal au poids de régression multiple de , qui est également (voir la réponse de @ EpiGrad ou la sortie R au dessous de).covariate
appendice
Code R
R sortie
la source
Bien sûr, quelques calculs seront nécessaires, mais ce n’est pas beaucoup: Euclid l’aurait bien compris. Tout ce que vous devez vraiment savoir, c'est comment ajouter et redimensionner des vecteurs. Bien que cela s'appelle de nos jours "algèbre linéaire", il suffit de la visualiser en deux dimensions. Cela nous permet d'éviter la machinerie matricielle de l'algèbre linéaire et de nous concentrer sur les concepts.
Une histoire géométrique
Dans la première figure, est la somme de et de . (Un vecteur mis à l'échelle par un facteur numérique ; les lettres grecques (alpha), (bêta) et (gamma) feront référence à ces facteurs d'échelle numérique.)y y⋅1 αx1 x1 α α β γ
Cette figure a en fait commencé avec les vecteurs d'origine (représentés par des lignes ) et . La "correspondance" des moindres carrés de à est trouvée en prenant le multiple de qui se rapproche le plus de dans le plan de la figure. C'est ainsi que été trouvé. En retirant cette correspondance de reste , le résidu de par rapport à . (Le point " " indiquera systématiquement quels vecteurs ont été "appariés", "sortis" ou "contrôlés pour.")x1 y y x1 x1 y α y y⋅1 y x1 ⋅
Nous pouvons associer d'autres vecteurs à . Voici une image où été mis en correspondance avec , en l'exprimant sous la forme d'un multiple de et de son résidu :x1 x2 x1 β x1 x2⋅1
(Peu importe que le plan contenant et puisse différer du plan contenant et : ces deux figures sont obtenues indépendamment l'une de l'autre. Il est garanti qu'elles ont en commun le vecteur .) De même, un nombre quelconque des vecteurs peuvent être associés à .x1 x2 x1 y x1 x3,x4,… x1
Considérons maintenant le plan contenant les deux résidus et . Je vais orienter l'image pour rendre horizontal, tout comme j'ai orienté les images précédentes pour rendre horizontale, car cette fois jouera le rôle de matcher:y⋅1 x2⋅1 x2⋅1 x1 x2⋅1
Notez que dans chacun des trois cas, le résidu est perpendiculaire à l’allumette. (Si ce n'était pas le cas, nous pourrions ajuster la correspondance pour qu'elle soit encore plus proche de , ou .)y x2 y⋅1
L’idée principale est qu’au moment où nous arrivons au dernier chiffre, les deux vecteurs impliqués ( et ) sont déjà perpendiculaires à , par construction. Ainsi, tout ajustement ultérieur sur implique des modifications qui sont toutes perpendiculaires à . En conséquence, la nouvelle correspondance et le nouveau résidu restent perpendiculaires à .x2⋅1 y⋅1 x1 y⋅1 x1 γx2⋅1 y⋅12 x1
(Si d'autres vecteurs sont impliqués, nous procéderons de la même manière pour faire correspondre leurs résidus à .)x3⋅1,x4⋅1,… x2
Il y a encore un point important à souligner. Cette construction a produit un résidu perpendiculaire à et . Cela signifie que est également le résidu de l' espace (royaume euclidien à trois dimensions) couvert par et . C'est-à-dire que ce processus en deux étapes consistant à mettre en correspondance et à prendre les résidus doit avoir trouvé l'emplacement dans le plan plus proche de . Puisque dans cette description géométrique, peu importe lequel de et est arrivé en premier, nous concluons quey⋅12 x1 x2 y⋅12 x1,x2, y x1,x2 y x1 x2 si le processus avait été effectué dans l'ordre inverse, en commençant par tant que correcteur, puis en utilisant , le résultat aurait été identique.x2 x1
(S'il y a des vecteurs supplémentaires, nous poursuivrons ce processus "à l'aide d'un matcher" jusqu'à ce que chacun de ces vecteurs ait eu son tour d'être le matcher. Dans tous les cas, les opérations seraient les mêmes que celles présentées ici et se produiraient toujours avion .)
Application à la régression multiple
Ce processus géométrique a une interprétation de régression multiple directe, car les colonnes de nombres agissent exactement comme des vecteurs géométriques. Ils ont toutes les propriétés requises des vecteurs (axiomatiquement) et peuvent donc être pensés et manipulés de la même manière avec une précision mathématique et une rigueur parfaites. Dans une régression multiple des variables de réglage avec , , et , l'objectif est de trouver une combinaison de et ( etc ) qui se rapproche le plus de . Géométriquement, toutes ces combinaisons de et ( etc.X1 X2,… Y X1 X2 Y X1 X2 ) correspondent aux points de l’ espace . L'ajustement de multiples coefficients de régression n'est rien de plus que la projection de vecteurs ("correspondants"). L'argument géométrique a montré queX1,X2,…
La correspondance peut être faite séquentiellement et
L'ordre dans lequel l'appariement est fait n'a pas d'importance.
Le processus de "retrait" d'un matcher en remplaçant tous les autres vecteurs par leurs résidus est souvent appelé "contrôle" pour le matcher. Comme nous l'avons vu dans les figures, une fois le contrôle effectué, tous les calculs ultérieurs effectuent des ajustements perpendiculaires à ce contrôle. Si vous le souhaitez, vous pouvez envisager de "contrôler" comme "une comptabilité (au sens le plus petit) pour la contribution / influence / effet / association d'un ajusteur sur toutes les autres variables".
Références
Vous pouvez voir tout cela en action avec les données et le code de travail dans la réponse à l' adresse https://stats.stackexchange.com/a/46508 . Cette réponse pourrait intéresser davantage les personnes qui préfèrent l'arithmétique aux images d'avion. (L'arithmétique permettant d'ajuster les coefficients au fur et à mesure que les appariements sont importés est tout de même simple.) Le langage de correspondance est celui de Fred Mosteller et John Tukey.
la source
Il existe jusqu'ici une excellente discussion sur l' ajustement des covariables comme moyen de "contrôler les autres variables". Mais je pense que ce n'est qu'une partie de l'histoire. En fait, il existe de nombreuses (autres) stratégies basées sur la conception, les modèles et l’apprentissage automatique pour traiter l’impact d’un certain nombre de variables de confusion possibles. Ceci est un bref aperçu de certains des sujets les plus importants (non-ajustement). Bien que l'ajustement soit le moyen le plus largement utilisé pour "contrôler" d'autres variables, je pense qu'un bon statisticien devrait comprendre ce qu'il fait (et ne fait pas) dans le contexte d'autres processus et procédures.
Correspondant à:
L'appariement est une méthode de conception d'une analyse par paires dans laquelle les observations sont regroupées en ensembles de 2 qui sont par ailleurs similaires dans leurs aspects les plus importants. Par exemple, vous pouvez échantillonner deux personnes qui concordent dans leurs études, leur revenu, leur ancienneté professionnelle, leur âge, leur état matrimonial, etc., mais qui sont discordantes quant à leur impatience. Pour les expositions binaires, le simple test du couple apparié suffit à vérifier une différence moyenne de leur IMC en contrôlant toutes les caractéristiques correspondantes. Si vous modélisez une exposition continue, une mesure analogue serait un modèle de régression sur l'origine des différences. Voir Carlin 2005
Pondération
La pondération est une autre analyse univariée qui modélise l'association entre un prédicteur continu ou binaire et un résultat sorte que la distribution des niveaux d'exposition soit homogène entre les groupes. Ces résultats sont généralement présentés sous forme standardisée, tels que la mortalité standardisée selon l' âge pour deux pays ou plusieurs hôpitaux. La standardisation indirecte calcule la distribution des résultats attendus à partir des taux obtenus dans une population "témoin" ou "saine" projetée vers la distribution des strates de la population de référence. La normalisation directe va dans l'autre sens. Ces méthodes sont généralement utilisées pour un résultat binaire. Pondération du score de propensionX Y comptes de la probabilité d'une exposition binaire et contrôles pour ces variables à cet égard. Cela ressemble à la standardisation directe pour une exposition. Voir Rothman, Modern Epidemiology, 3e édition.
Randomisation et Quasirandomisation
C'est un point subtil, mais si vous êtes réellement capable de randomiser les gens dans certaines conditions expérimentales, l'impact des autres variables est atténué. C'est une condition remarquablement plus forte, car vous n'avez même pas besoin de savoir quelles sont ces autres variables. En ce sens, vous avez "contrôlé" leur influence. Ceci n’est pas possible dans la recherche observationnelle, mais il s’avère que les méthodes de score de propension créent une simple mesure probabiliste de l’exposition permettant de pondérer, d’ajuster ou de faire correspondre les participants de sorte qu’ils puissent être analysés de la même manière qu’une étude quasi randomisée. . Voir Rosenbaum, Rubin 1983 .
Microsimulation
Une autre façon de simuler des données qui auraient pu être obtenues à partir d'une étude randomisée consiste à effectuer une microsimulation. Ici, on peut réellement attirer leur attention sur des modèles plus grands et plus sophistiqués, à apprentissage automatique. Judea Pearl a inventé le terme " modèles Oracle ", un terme qui désigne des réseaux complexes capables de générer des prévisions et des prévisions pour un certain nombre de caractéristiques et de résultats. Il s'avère que l'on peut "plier" les informations d'un tel modèle Oracle pour simuler les résultats dans une cohorte équilibrée de personnes représentant une cohorte randomisée, équilibrée dans leur distribution de "variable de contrôle" et utilisant de simples routines de test t pour évaluer la magnitude et précision des différences possibles. Voir Rutter, Zaslavsky et Feuer 2012
La mise en correspondance, la pondération et l'ajustement de la covariable dans un modèle de régression estiment tous les mêmes associations et peuvent donc être considérés comme des moyens de "contrôler" d'autres variables .
la source
Le logiciel ne contrôle pas littéralement les variables. Si vous êtes familier avec la notation matricielle de la régression , vous vous souviendrez peut-être que la solution des moindres carrés est . Ainsi, le logiciel évalue cette expression numériquement en utilisant des méthodes de calcul algébrique linéaire.Y=Xβ+ε b=(XTX)−1XTY
la source