Tout d'abord, je réalise que la régression multiple ne donne pas vraiment d'inférence "causale" sur les données. Permettez-moi d'expliquer mon cas actuel:
J'ai quatre variables indépendantes qui j'espère (mais je ne suis pas sûr) sont impliquées dans la conduite de la chose que je mesure. J'ai voulu utiliser la régression multiple pour voir dans quelle mesure chacune de ces variables contribue à ma variable dépendante, et je l'ai fait. Soi-disant, la variable «Numéro quatre» influence très fortement ma mesure des résultats (poids bêta proche de 0,7).
Cependant, on m'a dit que cela ne suffisait pas, car certaines de mes variables "indépendantes" peuvent en fait être corrélées les unes avec les autres. Dans ce cas, je pourrais penser que "Variable quatre" est le moteur de ma variable dépendante, alors qu'en réalité les trois et les quatre pourraient contribuer de manière égale. Cela semble correct, mais comme je suis nouveau dans ce domaine, je ne suis pas sûr.
Comment puis-je éviter systématiquement ce problème à l'avenir? Quelles procédures spécifiques recommanderiez-vous lorsque vous utilisez la régression multiple pour vous assurer que vos données "indépendantes" ne contiennent pas déjà des corrélations cachées?
Edit: Les données elles-mêmes sont une série de modèles de réseau (graphique) d'un état neurologique particulier. Je mesure le "coefficient de clustering" qui décrit la topologie de chaque réseau dans son ensemble (variable dépendante ici), puis je vérifie si les connectivités individuelles de quatre nœuds dans le plus grand réseau 100+ déterminent les valeurs de clustering mondiales (quatre indépendantes variables). Cependant, ces nœuds font partie d'un réseau, donc, par définition, il est possible qu'ils soient corrélés dans une certaine mesure.
Réponses:
Vous ne pouvez pas "éviter systématiquement ce problème à l'avenir", car il ne devrait pas être appelé un "problème". Si la réalité du monde matériel présente de fortes covariables, alors nous devons l'accepter comme un fait et ajuster nos théories et nos modèles en conséquence. J'aime beaucoup la question et j'espère que ce qui suit ne vous semblera pas trop décevant.
Voici quelques ajustements qui pourraient vous convenir. Vous devrez consulter un manuel de régression avant de continuer.
Diagnostiquez le problème en utilisant des techniques de corrélation ou de post-estimation comme le facteur d'inflation de la variance (VIF). Utilisez les outils mentionnés par Peter Flom si vous utilisez SAS ou R. Dans Stata, utilisez
pwcorr
pour construire une matrice de corrélation,gr matrix
pour construire une matrice de nuage de points etvif
pour détecter des niveaux de tolérance problématiques de 1 / VIF <0,1.Mesurez l'effet d'interaction en ajoutant, par exemple,
var3*var4
au modèle. Le coefficient vous aidera à comprendre combien est en jeu entrevar3
etvar4
. Cela ne vous amènera qu'à mesurer partiellement l'interaction, mais cela ne sauvera pas votre modèle de ses limites.Plus important encore, si vous détectez une forte multicolinéarité ou d'autres problèmes comme l'hétéroscédasticité, vous devez abandonner votre modèle et recommencer. La mauvaise spécification du modèle est le fléau de l'analyse de régression (et des méthodes fréquentistes en général). Paul Schrodt a plusieurs excellents articles sur la question, dont ses récents " Seven Deadly Sins " que j'aime beaucoup.
Cela répond à votre point sur la multicolinéarité, et beaucoup de cela peut être appris du manuel de régression sur UCLA Stat Computing. Cela ne répond pas à votre question sur la causalité. En bref, la régression n'est jamais causale. Aucun modèle statistique non plus: les informations causales et statistiques sont des espèces distinctes. Lisez sélectivement dans Judea Pearl ( exemple ) pour en savoir plus sur le sujet.
Dans l'ensemble, cette réponse n'annule pas la valeur de l'analyse de régression, ni même des statistiques fréquentistes (il se trouve que j'enseigne les deux). Cependant, cela réduit leur portée de pertinence et souligne également le rôle crucial de votre théorie explicative initiale, qui détermine vraiment la possibilité que votre modèle possède des propriétés causales.
la source
Si vous voulez voir si les variables indépendantes sont corrélées, c'est facile - testez simplement les corrélations, par exemple avec PROC CORR dans SAS, ou cor dans R, ou quoi que ce soit dans le package que vous utilisez.
Vous pouvez cependant vouloir tester la colinéarité à la place ou en plus.
Mais ce n'est qu'une partie du problème de la causalité. Plus problématique est qu'une variable qui N'EST PAS dans vos données est impliquée. Exemples classiques:
Les étudiants qui embauchent des tuteurs obtiennent de moins bonnes notes que les étudiants qui n'engagent pas de tuteurs.
Le montant des dégâts causés par un incendie est fortement lié au nombre de pompiers qui se présentent.
et (mon préféré)
si vous régressez le QI sur le signe astrologique et l'âge chez les enfants de 5 à 12 ans, il y a une interaction significative et un effet significatif du signe sur le QI, mais uniquement chez les jeunes enfants.
Raisons: 1. Oui. Parce que les étudiants qui obtiennent de très bonnes notes ont tendance à ne pas engager de tuteurs en premier lieu
Oui, car les incendies plus importants font plus de dégâts et font plus de pompiers
La quantité d'école (en mois) qu'un enfant a eu dépend du mois de naissance. Les systèmes scolaires ont des limites d'âge. Ainsi, un enfant de 6 ans peut avoir eu 11 mois de plus d'école qu'un autre de 6 ans.
Et tout cela sans entrer dans la philosophie!
la source
La relation entre la causalité et l'association consiste essentiellement à répondre à la question suivante:
Quoi d'autre, à part l'hypothèse de la relation causale, aurait pu amener et à être liés l'un à l'autre?X Y
Tant que la réponse à cette question n'est pas "rien", vous ne pouvez parler que de manière définitive de l'association. Il peut toujours y avoir une relation «causale» proposée est en fait un cas spécial de la relation causale «correcte» - c'est ce qui s'est passé entre la théorie de la gravité de Newton et celle d'Einstein, je pense. La relation causale de Newton était un cas particulier de la théorie d'Einstein. Et sa théorie sera probablement un cas particulier d'une autre théorie.
De plus, toute erreur dans vos données supprime toute chance d'une relation causale définie. En effet, l'expression "A provoque B" est en quelque sorte un lien déductif entre A et B. Tout ce que vous avez à faire pour réfuter cette hypothèse est de trouver 1 cas où B n'est pas présent mais A est présent (car alors A est vrai , mais cela devrait signifier que B est également vrai - mais nous avons observé B faux).
Dans un contexte de régression, il est beaucoup plus constructif de penser à la prédiction qu'à l'interprétation des coefficients lorsqu'on examine la causalité. Donc, si vous avez vraiment une bonne raison de penser que la variable quatre est la "cause principale" de la variable (votre variable dépendante), alors vous devriez pouvoir prédire avec une quasi-certitude en utilisant la variable quatre. Si vous ne pouvez pas le faire, alors il est inapproprié de conclure que la variable quatre causes . Mais si vous pouvez faire cette prédiction avec une quasi-certitude en utilisant les quatre variables - cela indique que des combinaisons particulières "provoquent"Y Y Y Y . Et chaque fois que vous proposez une relation de cause à effet, vous devrez presque certainement le "prouver" en reproduisant vos résultats avec de nouvelles données - vous devrez être en mesure de prédire quelles données seront vues et être correct à ce sujet.
Vous avez également besoin d'une sorte de théorie physique sur le "mécanisme causal" (lorsque j'appuie sur ce bouton, la lumière s'allume, lorsque j'appuie sur ce bouton, la lumière change de couleur, etc.). Si tout ce que vous avez, c'est que le "coefficient de régression était de 0,7", cela ne sert pas à grand-chose pour établir un mécanisme causal qui est à l'œuvre.
la source
Je ne sais pas dans quel domaine votre travail se situe, donc cela peut ou peut ne pas être utile - mais je suis plus familier avec l'utilisation de SPSS avec des constructions psychologiques. D'après mon expérience, si j'ai quelques variables prédisant une variable de résultat (ou une variable dépendante) dans une régression, et que j'ai une ou plusieurs variables indépendantes qui apparaissent comme des prédicteurs significatifs, l'étape suivante consiste à voir celles qui sont plus incrémentielles que autres. Une façon d'aborder cela est la régression hiérarchique. Cela répond essentiellement à la question «Si j'ai déjà la« variable quatre »pour prédire ma variable de résultat, l'une des autres variables fournit-elle une augmentation statistiquement significative du pouvoir prédictif? SPSS a une façon assez claire d'analyser cela, comme je suis sûr que R et SAS le font aussi. Donc, Je pense que la régression hiérarchique pourrait être votre prochaine étape pour découvrir si la «variable quatre» est vraiment votre meilleur pari pour prédire votre facteur de résultat. Les autres qui ont répondu ont fourni une bonne discussion sur les problèmes de corrélation-causalité, donc je vais laisser ça ... Bonne chance!
la source