X et Y ne sont pas corrélés, mais X est un prédicteur significatif de Y dans la régression multiple. Qu'est-ce que ça veut dire?

34

X et Y ne sont pas corrélés (-.01); Cependant, lorsque je place X dans une régression multiple prédisant Y, aux côtés de trois autres variables (liées) (A, B, C), X et deux autres variables (A, B) sont des prédicteurs significatifs de Y. Notez que les deux autres ( Les variables A, B) sont significativement corrélées avec Y en dehors de la régression.

Comment dois-je interpréter ces résultats? X prédit une variance unique dans Y, mais comme elles ne sont pas corrélées (Pearson), il est en quelque sorte difficile à interpréter.

Je connais des cas opposés (c’est-à-dire que deux variables sont corrélées mais la régression n’est pas significative) et qu’il est relativement plus simple à comprendre d’un point de vue théorique et statistique. Notez que certains des prédicteurs sont assez corrélés (par exemple, 0,70) mais pas dans la mesure où je m'attendrais à une multicolinéarité importante. Peut-être que je me trompe, cependant.

NOTE: J'ai déjà posé cette question et elle était fermée. Le raisonnement était que cette question est redondante avec la question " Comment une régression peut-elle être significative alors que tous les prédicteurs sont non significatifs?"". Peut-être que je ne comprends pas l’autre question, mais j’estime qu’il s’agit de questions tout à fait distinctes, tant sur le plan mathématique que théorique. Ma question est totalement indépendante de si" une régression est significative ". En outre, plusieurs prédicteurs sont significatifs, tandis que implique que les variables ne sont pas significatives, donc je ne vois pas le chevauchement. Si ces questions sont redondantes pour des raisons que je ne comprends pas, veuillez insérer un commentaire avant de clore cette question. J'espérais aussi envoyer un message au modérateur qui a clôturé l'autre question pour éviter des questions identiques, mais je ne pouvais pas trouver une option pour le faire.

Behacad
la source
2
Je pense que cela ressemble beaucoup à la question précédente. Si X et Y sont essentiellement non corrélés, dans une régression linéaire simple, le coefficient de pente de X ne sera pas significatif. Après tout, l'estimation de la pente est proportionnelle à la corrélation de l'échantillon. La régression multiple de Nut peut être une histoire différente parce que X et Z ensemble peuvent expliquer beaucoup de la variabilité de Y. Comme ma réponse semble similaire aux réponses à la question précédente, cela peut indiquer une similarité distincte.
Michael R. Chernick
2
Merci pour votre réponse et réponse très détaillée dans l'autre fil. Il faudra que je la relise quelques temps pour en avoir la thèse. Je suppose que mon autre préoccupation est de savoir comment l’interpréter de manière pratique plutôt que peut-être de manière statistique ou mathématique. Supposons par exemple que la vitesse de nage et l'anxiété de trait ne soient pas corrélées, mais que l'anxiété de trait est un facteur de prédiction significatif de la vitesse de nage dans une régression multiple aux côtés d'autres facteurs prédictifs. Comment cela peut-il avoir un sens pratique? Disons que vous écriviez ceci dans la section discussion d'un journal clinique!
Behacad
3
@jth Puisque vous maintenez que les deux questions sont suffisamment différentes pour ne pas être considérées comme des doublons, n'hésitez pas à déplacer votre réponse à l'autre question ici. (Je m'excuse de ne pas avoir initialement apprécié la différence.) La nouvelle note, je crois, est erronée en supposant que les questions sont mathématiquement différentes - @ Michael Chernick souligne qu'elles sont fondamentalement les mêmes - mais l'accent mis sur l' interprétation constitue une raison valable. garder les fils séparés.
whuber
1
J'ai aussi déplacé la réponse ici. Je pense que les deux questions sont très différentes mais pourraient partager certaines explications communes.
JDav
1
Cette page Web contient une autre excellente discussion sur des sujets connexes. C'est long, mais très bon et peut vous aider à comprendre les problèmes. Je recommande de le lire complètement.
gung - Réintégrer Monica

Réponses:

39

La théorie causale offre une autre explication sur la manière dont deux variables pourraient être indépendantes sans condition mais dépendantes de manière conditionnelle. Je ne suis pas un expert en théorie de la causalité et je suis reconnaissant pour toute critique qui corrigera toute erreur de guidage ci-dessous.

Pour illustrer cela, je vais utiliser des graphes acycliques dirigés (DAG). Dans ces graphiques, les arêtes ( ) entre les variables représentent des relations de causalité directes. Les têtes de flèche ( ou ) indiquent la direction des relations de causalité. Ainsi, AB déduit que A provoque directementB etAB infère queA est directement causé parB . ABC est un lien causal qui en déduit queA cause indirectementC àB. Par souci de simplicité, supposons que toutes les relations de cause à effet soient linéaires.

Commençons par un exemple simple de biais de confusion :

facteur de confusion

Ici, une simple régression bivariable suggérera une dépendance entre X et Y . Cependant, il n’existe pas de relation de cause à effet directe entre X et Y . Au lieu de cela, les deux sont directement causés par Z , et dans la simple régression bivariable, l'observation de Z induit une dépendance entre X et Y , ce qui entraîne un biais par confusion. Cependant, un conditionnement de régression multivariable de Z va supprimer le biais et suggérer aucune dépendance entre X et Y .

Deuxièmement, prenons un exemple de biais de collisionneur (également appelé biais de Berkson ou biais berksonien, dont le biais de sélection est un type spécial):

collisionneur

Ici, une simple régression bivariée ne suggèrera aucune dépendance entre X etY . Ceciaccord avec le DAG, qui infère aucune relation de causeeffet direct entreX etY . Cependant, un conditionnement de régression multivariable surZ induira une dépendance entreX etY suggérant ainsi l'existence possible d'une relation de cause à effet directe entre les deux variables, alors qu'il n'en existe aucune. L'inclusion deZ dans la régression multivariable entraîne un biais de collisionneur.

Troisièmement, considérons un exemple d’annulation fortuite:

annulation

Supposons que α , β et γ sont des coefficients de chemin et que β=αγ . Une simple régression bivariable suggérera pas depenence entre X et Y . Bien que X est en fait une cause directe de Y , l'effet confondant de Z sur X et Y annule incidemment l'effet de X sur Y . Un conditionnement de régression multivariable sur Z supprimera l’effet confondant de Z sur X etY , permettant l'estimation de l'effet direct de X sur Y , en supposant que le DAG du modèle causal est correct.

Résumer:

Exemple de confusion: X etY dépendent de régression bivariable et indépendant dansconditionnement de régression multivariable de facteurconfusionZ .

Exemple de collisionneur: X etY sont indépendants dansrégression bivariable et dépendante de plusieurs variables de conditionnement surrégressioncollisionneurZ .

Exemple d'annulation Inicdental: X et Y sont indépendants dans la régression bivariable et dépendante de plusieurs variables de conditionnement sur la régression de facteur de confusion Z .

Discussion:

Les résultats de votre analyse ne sont pas compatibles avec l'exemple de confusion, mais avec l'exemple du collisionneur et celui de l'annulation incidente. Ainsi, une explication potentielle est que vous avez incorrectement conditionné une variable de collisionneur dans votre régression multivariable et que vous avez induit une association entre X etY , même siX n'est pas une cause deY etY ne sont pas une cause deX . Sinon, vous avez peut-être correctement conditionné un facteur de confusion dans votre régression à plusieurs variables qui annulait accidentellement le véritable effet deX surY dans votre régression bivariable.

J’estime que l’utilisation des connaissances de base pour construire des modèles de causalité est utile pour déterminer les variables à inclure dans les modèles statistiques. Par exemple, si les études précédentes menées aléatoire de haute qualité a conclu que X provoque Z et Y provoque Z , je pourrais faire une hypothèse forte que Z est un collisionneur deX etY et non surcondition dans un modèle statistique. Cependant, si j'avais simplement l'intuition queX est à l'origine deZ , et queY est à l'origine deZ , mais qu'aucune preuve scientifique solide ne corroborait mon intuition, je ne pouvais que faire une hypothèse faible selon laquelleZest un collisionneur de X et Y , sans autres enquêtes sur leurs relations de cause à effet avec Z . Outre les connaissances de base, il existe également des algorithmes conçus pour déduire des modèles causaux à partir des données à l'aide d'une série de tests d'association (par exemple, algorithme PC et algorithme FCI, voir Implémentation de TETRAD for Java, PCalg., comme l’intuition humaine a une histoire d’être égarée. Par la suite, je serais sceptique quant à la conclusion de relations de cause à effet entre X et YZpour la mise en œuvre de R). Ces algorithmes sont très intéressants, mais je ne recommanderais pas de les utiliser sans une compréhension approfondie de la puissance et des limites du calcul causal et des modèles causaux dans la théorie causale.

Conclusion:

La contemplation de modèles causaux n'exempte pas le chercheur de traiter les considérations statistiques discutées dans d'autres réponses ici. Cependant, j'estime que les modèles de causalité peuvent néanmoins fournir un cadre utile pour la réflexion sur les explications possibles de la dépendance statistique et de l'indépendance observées dans les modèles statistiques, notamment lors de la visualisation de facteurs de confusion et de collisionneur potentiels.

Lectures complémentaires:

Gelman, Andrew. 2011. " Causality and Statistical Learning ." Un m. J. Sociology 117 (3) (novembre): 955–966.

Groenland, S, J Pearl et JM Robins. 1999. « Diagrammes de causalité pour la recherche épidémiologique» . Epidemiology (Cambridge, Mass.) 10 (1) (janvier): 37–48.

Groenland, Sander. 2003. “ Quantification des biais dans les modèles causaux: biais classiques de confusion entre le collisionneur et le stratificateur .» Epidemiology 14 (3) (1er mai): 300-306.

Pearl, Judée. 1998. Pourquoi il n’existe pas de test statistique contre la confusion, pourquoi beaucoup pensent qu’il en existe et pourquoi ils ont presque raison .

Pearl, Judée. 2009. Causalité: modèles, raisonnement et inférence . 2e éd. La presse de l'Universite de Cambridge.

Spirtes, Peter, Clark Glymour et Richard Scheines. 2001. Causation, Prediction, and Search , Deuxième édition. Un livre de Bradford.

Mise à jour: Judea Pearl discute de la théorie de l'inférence causale et de la nécessité d'incorporer l'inférence causale dans les cours d'introduction aux statistiques dans l' édition de novembre 2012 d'Amstat News . Sa conférence sur le prix Turing , intitulée "La mécanisation de l'inférence causale: un" mini "test de Turing et au-delà" présente également un intérêt.

jthetzel
la source
Les arguments de causalité sont certes valables, mais pour que le chercheur souscrive à cette approche, il faut une très bonne connaissance des phénomènes sous-jacents. Je me demande si l'analyse effectuée par Behacad n'est que exploratoire.
JDav
1
@ Behacad: Comme mentionné dans ma réponse, je vous suggère d'oublier le simple car votre problème est multivarié et non bivarié. Pour mesurer l'influence de votre variable d'intérêt, vous devez contrôler d'autres sources de variation susceptibles de fausser l'influence mesurée de x. ρ
JDav
5
+1 Les illustrations et les explications sont très claires et bien réalisées. Merci pour l'effort et la recherche qui (évidemment) sont allés dans cette réponse.
whuber
1
Aussi, quelqu'un pourrait-il me donner un exemple pratique de "Troisièmement, considérons un exemple d'annulation incidente?". La question de la causalité se pose. Si X et Y ne sont pas corrélés (c.-à-d. Que les changements dans X ne sont pas associés aux changements dans Y "), comment pourrions-nous considérer cette" cause "? C'est exactement ce que je me demande dans une autre question! Stats.stackexchange.com/questions / 33638 /…
Behacad
4
Il est intéressant de noter qu'il existe d'autres noms pour ceux-ci: Confondeur -> Modèle de cause commune; Collisionneur -> modèle à effet commun; & L'annulation fortuite est un cas particulier de médiation partielle.
gung - Rétablir Monica
22

Je pense que l'approche de @ jthetzel est la bonne (+1). Pour interpréter ces résultats, vous devrez réfléchir à une théorie sur la raison pour laquelle les relations se manifestent comme elles se manifestent. En d’autres termes, vous devrez réfléchir au type de relations de cause à effet qui sous-tend vos données. Comme le souligne @jthetzel, vous devez reconnaître que vos résultats sont cohérents avec plusieurs processus de génération de données différents. Je ne pense pas qu'une quantité de tests statistiques supplémentaires sur le même ensemble de données vous permettra de distinguer ces possibilités (bien que de nouvelles expériences le puissent certainement). Il est donc vital de réfléchir sérieusement à ce que l’on sait de ce sujet.

Je tiens à signaler une autre situation sous-jacente possible qui pourrait générer des résultats tels que le vôtre: suppression . C'est plus difficile à illustrer en utilisant les diagrammes en flèche, mais si je peux les augmenter légèrement, on pourrait penser à ça:

entrez la description de l'image ici

Ce qui est important dans cette situation est que l’ est composée de deux parties, une partie non liée ( U ) et une partie liée ( R ). Le suppresseur ne sera pas corrélé avec Y , mais pourrait très bien être «significatif» dans un modèle de régression multiple. De plus, la variable «autre variable» peut ou non être corrélée «de manière significative» avec le suppresseur ou Y seul. De plus, votre variable X pourrait jouer le rôle de suppresseurOther VariableURSuppressorYOther VariableSuppressorYSuppressor ou d’ Other Variable dans cette situation (et donc, encore une fois, vous devez réfléchir à ce que le modèle sous-jacent pourrait être basé sur votre connaissance de la région).

Je ne sais pas si vous pouvez lire le code R, mais voici un exemple que j'ai élaboré. (Cet exemple particulier convient mieux à X jouant le rôle de , mais les deux ne sont pas corrélés «significativement» avec Y ; il devrait être possible d'obtenir une corrélation proche de 0 entre l' autre variable et Y et d'apparier les autres descriptifs avec les bons réglages.) SuppressorYOther VariableY

set.seed(888)                            # for reproducibility

S  =         rnorm(60, mean=0, sd=1.0)   # the Suppressor is normally distributed
U  = 1.1*S + rnorm(60, mean=0, sd=0.1)   # U (unrelated) is Suppressor plus error
R  =         rnorm(60, mean=0, sd=1.0)   # related part; normally distributed
OV = U + R                               # the Other Variable is U plus R
Y  = R +     rnorm(60, mean=0, sd=2)     # Y is R plus error

cor.test(S, Y)                           # Suppressor uncorrelated w/ Y
# t = 0.0283, df = 58, p-value = 0.9775
# cor 0.003721616 

cor.test(S, OV)                          # Suppressor correlated w/ Other Variable
# t = 8.655, df = 58, p-value = 4.939e-12
# cor 0.7507423

cor.test(OV,Y)                           # Other Var not significantly cor w/ Y
# t = 1.954, df = 58, p-value = 0.05553
# cor 0.2485251

summary(lm(Y~OV+S))                      # both Suppressor & Other Var sig in mult reg
# Coefficients:
#              Estimate Std. Error t value Pr(>|t|)   
# (Intercept)   0.2752     0.2396   1.148  0.25557   
# OV            0.7232     0.2390   3.026  0.00372 **
# S            -0.7690     0.3415  -2.251  0.02823 * 

Mon point ici n'est pas que cette situation est celle qui sous-tend vos données. Je ne sais pas si cela est plus ou moins probable que les options suggérées par @jthetzel. Je propose seulement ceci comme davantage de matière à réflexion. Pour interpréter vos résultats actuels, vous devez réfléchir à ces possibilités et décider de ce qui a le plus de sens. Pour confirmer votre choix, une expérimentation minutieuse sera nécessaire.

gung - Rétablir Monica
la source
2
Excellent! Merci. Cela constitue un autre bon exemple de ce qui pourrait se produire dans mes données. On dirait que je ne peux accepter qu'une seule réponse, cependant ...
Behacad
Pas de problème, @Behacad, je pense que jthetzel mérite la case à cocher; Je suis juste heureux d'aider.
gung - Réintégrer Monica
7

Juste une visualisation que c'est possible.

La photo (a) montre une situation régressive "normale" ou "intuitive". Cette photo est la même que celle trouvée par exemple (et expliquée) ici ou ici .

Les variables sont dessinées sous forme de vecteurs. Les angles entre eux (leurs cosinus) sont les corrélations des variables. désigne ici la variable des valeurs prédites (plus souvent notée commeYY^b - est proportionnelle au coefficient de régression de ce prédicteur.

Le pic (a), les trois variables sont en corrélation positive, et à la fois et b 2 sont des coefficients de régression aussi positifs. Xb1b2X1X2

enter image description here

X1YYX1YX2 , ce qui signifie que les valeurs prédites sont en corrélation absolue avec cet autre prédicteur.

X1YX1

Données et analyses correspondant approximativement à la photo (b):

       y       x1       x2
1.644540 1.063845  .351188
1.785204 1.203146  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955  .100612  .858597
 .970097 2.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192  .587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.310708  .396034
1.462036  .057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -.898084 -.838295

enter image description here

Données et analyses correspondant approximativement à la photo (c):

       y       x1       x2
1.644540 1.063845  .351188
1.785204 -1.20315  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955 -.100612  .858597
 .970097 1.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192 -.587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.810708  .396034
1.462036 -.057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -1.26108 -.838295

enter image description here

X1Y.224X2.419.538

tnphns
la source
Merci! Cela semble encore un peu contre-intuitif, mais au moins vos photos montrent que c'est faisable :)
JelenaČuklina
5

Je suis d’accord avec la réponse précédente, mais j’espère pouvoir apporter ma contribution en donnant plus de détails.

XYXy écarts types:

Y=une+βX+vous

ρ^yX=β^σ^X/σ^y

But what happens if Y is generated by other variables as well, thus the real model is something like:

Y=a+βx+jαjzj+u

Under this real model, it becomes obvious that estimating the first one (only with x) will yield a biased β estimate as that model is omitting the zj regressors(this implies that ρ is also biased !). So your results are in line with the fact that the omitted variables are relevant. To deal with this issue , theory on correlation analysis provides the partial correlation coefficient (I'm sure you will find references on this) which basically calculates ρxy|z from the latter estimating equation that controls for zj.

JDav
la source
ρ biased means that its value is unreliable, it could be anything from -1 to 1. If you accept to give an interpretation to it , then you are implicitly assuming your universe has 2 variables of interest only. If you suspect there might be others, why to calculate a bivariate ρ ? e.g. a universe must be defined before starting the analysis and yours is multivariate (>2) From that point of view, a bivariate analysis suffers from an omitted variables issue.
JDav