X et Y ne sont pas corrélés (-.01); Cependant, lorsque je place X dans une régression multiple prédisant Y, aux côtés de trois autres variables (liées) (A, B, C), X et deux autres variables (A, B) sont des prédicteurs significatifs de Y. Notez que les deux autres ( Les variables A, B) sont significativement corrélées avec Y en dehors de la régression.
Comment dois-je interpréter ces résultats? X prédit une variance unique dans Y, mais comme elles ne sont pas corrélées (Pearson), il est en quelque sorte difficile à interpréter.
Je connais des cas opposés (c’est-à-dire que deux variables sont corrélées mais la régression n’est pas significative) et qu’il est relativement plus simple à comprendre d’un point de vue théorique et statistique. Notez que certains des prédicteurs sont assez corrélés (par exemple, 0,70) mais pas dans la mesure où je m'attendrais à une multicolinéarité importante. Peut-être que je me trompe, cependant.
NOTE: J'ai déjà posé cette question et elle était fermée. Le raisonnement était que cette question est redondante avec la question " Comment une régression peut-elle être significative alors que tous les prédicteurs sont non significatifs?"". Peut-être que je ne comprends pas l’autre question, mais j’estime qu’il s’agit de questions tout à fait distinctes, tant sur le plan mathématique que théorique. Ma question est totalement indépendante de si" une régression est significative ". En outre, plusieurs prédicteurs sont significatifs, tandis que implique que les variables ne sont pas significatives, donc je ne vois pas le chevauchement. Si ces questions sont redondantes pour des raisons que je ne comprends pas, veuillez insérer un commentaire avant de clore cette question. J'espérais aussi envoyer un message au modérateur qui a clôturé l'autre question pour éviter des questions identiques, mais je ne pouvais pas trouver une option pour le faire.
Réponses:
La théorie causale offre une autre explication sur la manière dont deux variables pourraient être indépendantes sans condition mais dépendantes de manière conditionnelle. Je ne suis pas un expert en théorie de la causalité et je suis reconnaissant pour toute critique qui corrigera toute erreur de guidage ci-dessous.
Pour illustrer cela, je vais utiliser des graphes acycliques dirigés (DAG). Dans ces graphiques, les arêtes (− ) entre les variables représentent des relations de causalité directes. Les têtes de flèche ( ← ou → ) indiquent la direction des relations de causalité. Ainsi, A→B déduit que A provoque directementB etA←B infère queA est directement causé parB . A→B→C est un lien causal qui en déduit queA cause indirectementC àB . Par souci de simplicité, supposons que toutes les relations de cause à effet soient linéaires.
Commençons par un exemple simple de biais de confusion :
Ici, une simple régression bivariable suggérera une dépendance entreX et Y . Cependant, il n’existe pas de relation de cause à effet directe entre X et Y . Au lieu de cela, les deux sont directement causés par Z , et dans la simple régression bivariable, l'observation de Z induit une dépendance entre X et Y , ce qui entraîne un biais par confusion. Cependant, un conditionnement de régression multivariable de Z va supprimer le biais et suggérer aucune dépendance entre X et Y .
Deuxièmement, prenons un exemple de biais de collisionneur (également appelé biais de Berkson ou biais berksonien, dont le biais de sélection est un type spécial):
Ici, une simple régression bivariée ne suggèrera aucune dépendance entreX etY . Ceciaccord avec le DAG, qui infère aucune relation de causeeffet direct entreX etY . Cependant, un conditionnement de régression multivariable surZ induira une dépendance entreX etY suggérant ainsi l'existence possible d'une relation de cause à effet directe entre les deux variables, alors qu'il n'en existe aucune. L'inclusion deZ dans la régression multivariable entraîne un biais de collisionneur.
Troisièmement, considérons un exemple d’annulation fortuite:
Supposons queα , β et γ sont des coefficients de chemin et que β=−αγ . Une simple régression bivariable suggérera pas depenence entre X et Y . Bien que X est en fait une cause directe de Y , l'effet confondant de Z sur X et Y annule incidemment l'effet de X sur Y . Un conditionnement de régression multivariable sur Z supprimera l’effet confondant de Z sur X etY , permettant l'estimation de l'effet direct de X sur Y , en supposant que le DAG du modèle causal est correct.
Résumer:
Exemple de confusion:X etY dépendent de régression bivariable et indépendant dansconditionnement de régression multivariable de facteurconfusionZ .
Exemple de collisionneur:X etY sont indépendants dansrégression bivariable et dépendante de plusieurs variables de conditionnement surrégressioncollisionneurZ .
Exemple d'annulation Inicdental:X et Y sont indépendants dans la régression bivariable et dépendante de plusieurs variables de conditionnement sur la régression de facteur de confusion Z .
Discussion:
Les résultats de votre analyse ne sont pas compatibles avec l'exemple de confusion, mais avec l'exemple du collisionneur et celui de l'annulation incidente. Ainsi, une explication potentielle est que vous avez incorrectement conditionné une variable de collisionneur dans votre régression multivariable et que vous avez induit une association entreX etY , même siX n'est pas une cause deY etY ne sont pas une cause deX . Sinon, vous avez peut-être correctement conditionné un facteur de confusion dans votre régression à plusieurs variables qui annulait accidentellement le véritable effet deX surY dans votre régression bivariable.
J’estime que l’utilisation des connaissances de base pour construire des modèles de causalité est utile pour déterminer les variables à inclure dans les modèles statistiques. Par exemple, si les études précédentes menées aléatoire de haute qualité a conclu queX provoque Z et Y provoque Z , je pourrais faire une hypothèse forte que Z est un collisionneur deX etY et non surcondition dans un modèle statistique. Cependant, si j'avais simplement l'intuition queX est à l'origine deZ , et queY est à l'origine deZ , mais qu'aucune preuve scientifique solide ne corroborait mon intuition, je ne pouvais que faire une hypothèse faible selon laquelleZ est un collisionneur de X et Y , sans autres enquêtes sur leurs relations de cause à effet avec Z . Outre les connaissances de base, il existe également des algorithmes conçus pour déduire des modèles causaux à partir des données à l'aide d'une série de tests d'association (par exemple, algorithme PC et algorithme FCI, voir Implémentation de TETRAD for Java, PCalg., comme l’intuition humaine a une histoire d’être égarée. Par la suite, je serais sceptique quant à la conclusion de relations de cause à effet entre X et Y Z pour la mise en œuvre de R). Ces algorithmes sont très intéressants, mais je ne recommanderais pas de les utiliser sans une compréhension approfondie de la puissance et des limites du calcul causal et des modèles causaux dans la théorie causale.
Conclusion:
La contemplation de modèles causaux n'exempte pas le chercheur de traiter les considérations statistiques discutées dans d'autres réponses ici. Cependant, j'estime que les modèles de causalité peuvent néanmoins fournir un cadre utile pour la réflexion sur les explications possibles de la dépendance statistique et de l'indépendance observées dans les modèles statistiques, notamment lors de la visualisation de facteurs de confusion et de collisionneur potentiels.
Lectures complémentaires:
Gelman, Andrew. 2011. " Causality and Statistical Learning ." Un m. J. Sociology 117 (3) (novembre): 955–966.
Groenland, S, J Pearl et JM Robins. 1999. « Diagrammes de causalité pour la recherche épidémiologique» . Epidemiology (Cambridge, Mass.) 10 (1) (janvier): 37–48.
Groenland, Sander. 2003. “ Quantification des biais dans les modèles causaux: biais classiques de confusion entre le collisionneur et le stratificateur .» Epidemiology 14 (3) (1er mai): 300-306.
Pearl, Judée. 1998. Pourquoi il n’existe pas de test statistique contre la confusion, pourquoi beaucoup pensent qu’il en existe et pourquoi ils ont presque raison .
Pearl, Judée. 2009. Causalité: modèles, raisonnement et inférence . 2e éd. La presse de l'Universite de Cambridge.
Spirtes, Peter, Clark Glymour et Richard Scheines. 2001. Causation, Prediction, and Search , Deuxième édition. Un livre de Bradford.
Mise à jour: Judea Pearl discute de la théorie de l'inférence causale et de la nécessité d'incorporer l'inférence causale dans les cours d'introduction aux statistiques dans l' édition de novembre 2012 d'Amstat News . Sa conférence sur le prix Turing , intitulée "La mécanisation de l'inférence causale: un" mini "test de Turing et au-delà" présente également un intérêt.
la source
Je pense que l'approche de @ jthetzel est la bonne (+1). Pour interpréter ces résultats, vous devrez réfléchir à une théorie sur la raison pour laquelle les relations se manifestent comme elles se manifestent. En d’autres termes, vous devrez réfléchir au type de relations de cause à effet qui sous-tend vos données. Comme le souligne @jthetzel, vous devez reconnaître que vos résultats sont cohérents avec plusieurs processus de génération de données différents. Je ne pense pas qu'une quantité de tests statistiques supplémentaires sur le même ensemble de données vous permettra de distinguer ces possibilités (bien que de nouvelles expériences le puissent certainement). Il est donc vital de réfléchir sérieusement à ce que l’on sait de ce sujet.
Je tiens à signaler une autre situation sous-jacente possible qui pourrait générer des résultats tels que le vôtre: suppression . C'est plus difficile à illustrer en utilisant les diagrammes en flèche, mais si je peux les augmenter légèrement, on pourrait penser à ça:
Ce qui est important dans cette situation est que l’ est composée de deux parties, une partie non liée ( U ) et une partie liée ( R ). Le suppresseur ne sera pas corrélé avec Y , mais pourrait très bien être «significatif» dans un modèle de régression multiple. De plus, la variable «autre variable» peut ou non être corrélée «de manière significative» avec le suppresseur ou Y seul. De plus, votre variable X pourrait jouer le rôle de suppresseurOther Variable U R Suppressor Y Other Variable Suppressor Y Suppressor ou d’ Other Variable dans cette situation (et donc, encore une fois, vous devez réfléchir à ce que le modèle sous-jacent pourrait être basé sur votre connaissance de la région).
Je ne sais pas si vous pouvez lire le code R, mais voici un exemple que j'ai élaboré. (Cet exemple particulier convient mieux à X jouant le rôle de , mais les deux ne sont pas corrélés «significativement» avec Y ; il devrait être possible d'obtenir une corrélation proche de 0 entre l' autre variable et Y et d'apparier les autres descriptifs avec les bons réglages.)Suppressor Y Other Variable Y
Mon point ici n'est pas que cette situation est celle qui sous-tend vos données. Je ne sais pas si cela est plus ou moins probable que les options suggérées par @jthetzel. Je propose seulement ceci comme davantage de matière à réflexion. Pour interpréter vos résultats actuels, vous devez réfléchir à ces possibilités et décider de ce qui a le plus de sens. Pour confirmer votre choix, une expérimentation minutieuse sera nécessaire.
la source
Juste une visualisation que c'est possible.
La photo (a) montre une situation régressive "normale" ou "intuitive". Cette photo est la même que celle trouvée par exemple (et expliquée) ici ou ici .
Les variables sont dessinées sous forme de vecteurs. Les angles entre eux (leurs cosinus) sont les corrélations des variables. désigne ici la variable des valeurs prédites (plus souvent notée commeY′ Y^ b - est proportionnelle au coefficient de régression de ce prédicteur.
Le pic (a), les trois variables sont en corrélation positive, et à la fois et b 2 sont des coefficients de régression aussi positifs. Xb1 b2 X1 X2
Données et analyses correspondant approximativement à la photo (b):
Données et analyses correspondant approximativement à la photo (c):
la source
Je suis d’accord avec la réponse précédente, mais j’espère pouvoir apporter ma contribution en donnant plus de détails.
oùρ^yX= β^σ^X/ σ^y
But what happens ifY is generated by other variables as well, thus the real model is something like:
Under this real model, it becomes obvious that estimating the first one (only with x) will yield a biasedβ estimate as that model is omitting the zj regressors(this implies that ρ is also biased !). So your results are in line with the fact that the omitted variables are relevant. To deal with this issue , theory on correlation analysis provides the partial correlation coefficient (I'm sure you will find references on this) which basically calculates ρxy|z from the latter estimating equation that controls for zj .
la source