Relation linéaire entre les variables explicatives en régression multiple

10

Je lisais le chapitre sur la régression multiple de l' analyse des données et des graphiques à l'aide de R: une approche basée sur des exemples et j'étais un peu confus de découvrir qu'il recommandait de vérifier les relations linéaires entre les variables explicatives (à l'aide d'un nuage de points) et, au cas où il n'y aurait pas ' t tout, en les transformant afin qu'ils ne deviennent plus linéairement liés. En voici quelques extraits:

6.3 Une stratégie pour ajuster plusieurs modèles de régression

(...)

Examinez la matrice de nuage de points impliquant toutes les variables explicatives. (L'inclusion de la variable dépendante est, à ce stade, facultative. ) Recherchez d'abord des preuves de non-linéarité dans les graphiques des variables explicatives les uns par rapport aux autres.

(...)

Ce point identifie une stratégie de recherche de modèles - recherchez des modèles dans lesquels les relations de régression entre les variables explicatives suivent une forme linéaire "simple" . Ainsi, si certains graphiques par paires montrent des signes de non-linéarité, envisagez d'utiliser des transformations pour donner des relations plus presque linéaires . Bien qu'il ne soit pas nécessairement possible, en suivant cette stratégie, de modéliser adéquatement la relation de régression, il s'agit d'une bonne stratégie, pour les raisons indiquées ci-dessous, à suivre pour commencer la recherche.

(...)

Si les relations entre les variables explicatives sont approximativement linéaires, peut-être après la transformation, il est alors possible d'interpréter les graphiques des variables prédictives par rapport à la variable de réponse avec confiance.

(...)

Il peut ne pas être possible de trouver des transformations d'une ou plusieurs des variables explicatives qui garantissent que les relations (par paires) présentées dans les panneaux apparaissent linéaires. Cela peut créer des problèmes à la fois pour l' interprétation des graphiques de diagnostic pour toute équation de régression ajustée et pour l' interprétation des coefficients dans l'équation ajustée. Voir Cook et Weisberg (1999).

Ne devrais-je pas m'inquiéter des relations linéaires entre les variables dépendantes (en raison du risque de multicollinéarité) au lieu de les rechercher activement? Quels sont les avantages d'avoir des variables approximativement linéairement liées?

Les auteurs abordent la question de la multicolinéarité plus loin dans le chapitre, mais ces recommandations semblent en contradiction avec l'évitement de la multicolinéarité.

RicardoC
la source

Réponses:

8

Il y a deux points ici:

  1. Le passage recommande de transformer les IV en linéarité uniquement lorsqu'il existe des preuves de non-linéarité. Les relations non linéaires entre les IV peuvent également entraîner une colinéarité et, plus centralement, peuvent compliquer d'autres relations. Je ne suis pas sûr d'être d'accord avec les conseils du livre, mais ce n'est pas idiot.

  2. Certes, des relations linéaires très fortes peuvent être des causes de colinéarité, mais des corrélations élevées ne sont ni nécessaires ni suffisantes pour provoquer une colinéarité problématique. L'indice de condition est une bonne méthode de diagnostic de la colinéarité.

MODIFIER en réponse au commentaire

Les indices de condition sont brièvement décrits ici comme "racine carrée de la valeur propre maximale divisée par la valeur propre minimale". Il y a pas mal de postes ici sur CV qui en discutent et leurs mérites. Les textes fondateurs sur eux sont deux livres de David Belsley: Conditioning diagnostics et Regression Diagnostics (qui a également une nouvelle édition, 2005).

Peter Flom - Réintégrer Monica
la source
1
+1 - bonne réponse mais pouvez-vous développer l'indice de condition? Je n'ai pas encore trouvé de moyen satisfaisant de traiter la colinéarité dans les variables explicatives candidates.
BGreene
Merci pour la réponse informative. Pourriez-vous expliquer quelles autres relations sont compliquées par la non-linéarité entre expl. variables? Et faites-vous maintenant de quoi les auteurs parlent quand ils disent que les relations non linéaires entre expl. les variables peuvent-elles poser des problèmes d'interprétation des coefficients et des tracés de diagnostic?
RicardoC
Je ne peux pas donner d'exemple pour le moment, mais je l'ai vu se produire. Il peut sembler qu'il existe des relations non linéaires entre Y et X
Peter Flom - Reinstate Monica
3

Des relations linéaires entre chacune des variables explicatives et la variable dépendante assureront également des relations linéaires entre les variables explicatives. L'inverse n'est bien sûr pas vrai.

Il est vrai que les transformations conçues pour donner une linéarité approximative augmenteront la colinéarité. En l'absence de telles transformations, cependant, la colinéarité est cachée. Insister pour garder la colinéarité ainsi cachée peut entraîner une équation de régression compliquée et non interprétable, où une forme simple d'équation est disponible.

Supposons que cette valeur ysoit proche d'une fonction linéaire de log(x1), dans un cas où les xplages de valeurs diffèrent d'un facteur de 10 ou plus. Ensuite, si xest utilisé comme régresseur, d'autres variables explicatives seront si possible invoquées pour expliquer la non-linéarité de la relation avec x1. Le résultat peut être une relation de régression très compliquée, avec des coefficients non interprétables, à la place d'une forme simple d'équation de régression qui capture tout le pouvoir explicatif disponible.

Les conséquences bizarres qui peuvent résulter de l'incapacité à trouver et à travailler avec des variables liées de manière linéaire sont bien illustrées dans le récent article qui a affirmé une féminité de l'effet du nom de l'ouragan dans les données sur les décès de 94 ouragans de l'Atlantique qui ont touché les États-Unis entre 1950 et 2012. Voir http://www.pnas.org/content/111/24/8782.abstract . Les données sont disponibles dans le cadre des informations supplémentaires. Notez que travailler avec log(deaths)et utiliser un modèle linéaire de la théorie normaL (fonction de R lm()) équivaut à peu près à l'utilisation par Jung et al d'un modèle de régression binomiale négative.

Si l' on régresse log(E[deaths])sur log(NDAM), il n'y a rien pour la variable de pression minimale, la variable féminitude, et les interactions, pour expliquer. La variable log(NDAM), non NDAM, apparaît dans une matrice de nuage de points comme étant liée linéairement à la variable de pression minimale. Sa distribution est également beaucoup moins asymétrique, beaucoup plus proche de symétrique.

Jung et al ont régressé log(E[deaths])sur NDAM(dommages normalisés), plus ces autres variables et interactions. L'équation qui a alors émergé a été utilisée pour raconter une histoire dans laquelle la féminité du nom a un grand effet.

Pour voir à quel point il est étrange d'utiliser NDAMcomme variable explicative dans une régression où la variable de résultat est log(E[deaths]), graphique log(deaths+0.5)ou log(deaths+1)contre NDAM. Répétez ensuite l'intrigue avec log(NDAM)à la place de NDAM. Le contraste est encore plus frappant si Katrina et Audrey, que Jung et al ont omis comme valeurs aberrantes, sont incluses dans l'intrigue. En insistant sur l'utilisation NDAMde la variable explicative plutôt que sur log(NDAM), Jung et al ont laissé passer l'occasion de trouver une forme très simple de relation de régression.

NB c'est E[deaths]le nombre de décès prédit par le modèle.

Dans les données de Jung et al, les transformations nécessaires peuvent être identifiées à partir d'une matrice de nuage de points de toutes les variables. Essayez peut-être la fonction R spm()dans la dernière version du package de voiture pour R, avec transform=TRUEet (avec deathscomme variable) family="yjPower". Ou expérimentez les transformations suggérées par une matrice de nuage de points initiale. En général, le conseil préféré peut être de chercher d'abord des variables explicatives qui satisfont à l'exigence des prédicteurs linéaires, puis de s'occuper de la variable de résultat, peut-être en utilisant la fonction voiture invTranPlot().

Voir, en plus de "Analyse des données et graphiques utilisant R" qui a été référencé par le questionneur:

  • Weisberg: régression linéaire appliquée. 4e édition, Wiley 2014, pp.185-203.
  • Fox and Weisberg: An R Companion to Applied Regression. 2e édition, Sage, 2011, pp.127-148.
John Maindonald
la source
1

Je trouve tout ce passage plutôt cryptique, voire carrément discutable. Idéalement, vous souhaitez que vos variables indépendantes soient aussi non corrélées que possible les unes des autres afin de fournir des informations supplémentaires et supplémentaires au modèle lors de l'estimation de la variable dépendante. Vous soulevez le problème de la multicolinéarité par le biais de fortes corrélations entre des variables indépendantes, et vous avez parfaitement raison de soulever ce problème dans ce cas.

Il est plus critique d'examiner le diagramme de dispersion et la relation linéaire associée entre chacune des variables indépendantes et la variable dépendante, mais pas entre les variables indépendantes. Lorsque vous regardez de tels diagrammes de dispersion (indépendants sur l'axe X et dépendants de l'axe Y) à ce moment, il peut y avoir des opportunités de transformer la variable indépendante pour observer un meilleur ajustement, que ce soit via un log, un exposant ou une forme polynomiale.

Sympa
la source
1
Sur votre 2ème phrase: Si les variables indépendantes n'étaient pas totalement corrélées, alors une grande partie de la justification de la régression deviendrait théorique. Chaque relation bivariée d'un prédicteur avec Y apparaîtrait comme la relation lorsque tous les autres prédicteurs étaient contrôlés. Dans ce cas, pourquoi contrôler?
rolando2