Je lisais le chapitre sur la régression multiple de l' analyse des données et des graphiques à l'aide de R: une approche basée sur des exemples et j'étais un peu confus de découvrir qu'il recommandait de vérifier les relations linéaires entre les variables explicatives (à l'aide d'un nuage de points) et, au cas où il n'y aurait pas ' t tout, en les transformant afin qu'ils ne deviennent plus linéairement liés. En voici quelques extraits:
6.3 Une stratégie pour ajuster plusieurs modèles de régression
(...)
Examinez la matrice de nuage de points impliquant toutes les variables explicatives. (L'inclusion de la variable dépendante est, à ce stade, facultative. ) Recherchez d'abord des preuves de non-linéarité dans les graphiques des variables explicatives les uns par rapport aux autres.
(...)
Ce point identifie une stratégie de recherche de modèles - recherchez des modèles dans lesquels les relations de régression entre les variables explicatives suivent une forme linéaire "simple" . Ainsi, si certains graphiques par paires montrent des signes de non-linéarité, envisagez d'utiliser des transformations pour donner des relations plus presque linéaires . Bien qu'il ne soit pas nécessairement possible, en suivant cette stratégie, de modéliser adéquatement la relation de régression, il s'agit d'une bonne stratégie, pour les raisons indiquées ci-dessous, à suivre pour commencer la recherche.
(...)
Si les relations entre les variables explicatives sont approximativement linéaires, peut-être après la transformation, il est alors possible d'interpréter les graphiques des variables prédictives par rapport à la variable de réponse avec confiance.
(...)
Il peut ne pas être possible de trouver des transformations d'une ou plusieurs des variables explicatives qui garantissent que les relations (par paires) présentées dans les panneaux apparaissent linéaires. Cela peut créer des problèmes à la fois pour l' interprétation des graphiques de diagnostic pour toute équation de régression ajustée et pour l' interprétation des coefficients dans l'équation ajustée. Voir Cook et Weisberg (1999).
Ne devrais-je pas m'inquiéter des relations linéaires entre les variables dépendantes (en raison du risque de multicollinéarité) au lieu de les rechercher activement? Quels sont les avantages d'avoir des variables approximativement linéairement liées?
Les auteurs abordent la question de la multicolinéarité plus loin dans le chapitre, mais ces recommandations semblent en contradiction avec l'évitement de la multicolinéarité.
Des relations linéaires entre chacune des variables explicatives et la variable dépendante assureront également des relations linéaires entre les variables explicatives. L'inverse n'est bien sûr pas vrai.
Il est vrai que les transformations conçues pour donner une linéarité approximative augmenteront la colinéarité. En l'absence de telles transformations, cependant, la colinéarité est cachée. Insister pour garder la colinéarité ainsi cachée peut entraîner une équation de régression compliquée et non interprétable, où une forme simple d'équation est disponible.
Supposons que cette valeur
y
soit proche d'une fonction linéaire delog(x1)
, dans un cas où lesx
plages de valeurs diffèrent d'un facteur de 10 ou plus. Ensuite, six
est utilisé comme régresseur, d'autres variables explicatives seront si possible invoquées pour expliquer la non-linéarité de la relation avec x1. Le résultat peut être une relation de régression très compliquée, avec des coefficients non interprétables, à la place d'une forme simple d'équation de régression qui capture tout le pouvoir explicatif disponible.Les conséquences bizarres qui peuvent résulter de l'incapacité à trouver et à travailler avec des variables liées de manière linéaire sont bien illustrées dans le récent article qui a affirmé une féminité de l'effet du nom de l'ouragan dans les données sur les décès de 94 ouragans de l'Atlantique qui ont touché les États-Unis entre 1950 et 2012. Voir http://www.pnas.org/content/111/24/8782.abstract . Les données sont disponibles dans le cadre des informations supplémentaires. Notez que travailler avec
log(deaths)
et utiliser un modèle linéaire de la théorie normaL (fonction de Rlm()
) équivaut à peu près à l'utilisation par Jung et al d'un modèle de régression binomiale négative.Si l' on régresse
log(E[deaths])
surlog(NDAM)
, il n'y a rien pour la variable de pression minimale, la variable féminitude, et les interactions, pour expliquer. La variablelog(NDAM)
, nonNDAM
, apparaît dans une matrice de nuage de points comme étant liée linéairement à la variable de pression minimale. Sa distribution est également beaucoup moins asymétrique, beaucoup plus proche de symétrique.Jung et al ont régressé
log(E[deaths])
surNDAM
(dommages normalisés), plus ces autres variables et interactions. L'équation qui a alors émergé a été utilisée pour raconter une histoire dans laquelle la féminité du nom a un grand effet.Pour voir à quel point il est étrange d'utiliser
NDAM
comme variable explicative dans une régression où la variable de résultat estlog(E[deaths])
, graphiquelog(deaths+0.5)
oulog(deaths+1)
contreNDAM
. Répétez ensuite l'intrigue aveclog(NDAM)
à la place deNDAM
. Le contraste est encore plus frappant si Katrina et Audrey, que Jung et al ont omis comme valeurs aberrantes, sont incluses dans l'intrigue. En insistant sur l'utilisationNDAM
de la variable explicative plutôt que surlog(NDAM)
, Jung et al ont laissé passer l'occasion de trouver une forme très simple de relation de régression.NB c'est
E[deaths]
le nombre de décès prédit par le modèle.Dans les données de Jung et al, les transformations nécessaires peuvent être identifiées à partir d'une matrice de nuage de points de toutes les variables. Essayez peut-être la fonction R
spm()
dans la dernière version du package de voiture pour R, avectransform=TRUE
et (avecdeaths
comme variable)family="yjPower"
. Ou expérimentez les transformations suggérées par une matrice de nuage de points initiale. En général, le conseil préféré peut être de chercher d'abord des variables explicatives qui satisfont à l'exigence des prédicteurs linéaires, puis de s'occuper de la variable de résultat, peut-être en utilisant la fonction voitureinvTranPlot()
.Voir, en plus de "Analyse des données et graphiques utilisant R" qui a été référencé par le questionneur:
la source
Je trouve tout ce passage plutôt cryptique, voire carrément discutable. Idéalement, vous souhaitez que vos variables indépendantes soient aussi non corrélées que possible les unes des autres afin de fournir des informations supplémentaires et supplémentaires au modèle lors de l'estimation de la variable dépendante. Vous soulevez le problème de la multicolinéarité par le biais de fortes corrélations entre des variables indépendantes, et vous avez parfaitement raison de soulever ce problème dans ce cas.
Il est plus critique d'examiner le diagramme de dispersion et la relation linéaire associée entre chacune des variables indépendantes et la variable dépendante, mais pas entre les variables indépendantes. Lorsque vous regardez de tels diagrammes de dispersion (indépendants sur l'axe X et dépendants de l'axe Y) à ce moment, il peut y avoir des opportunités de transformer la variable indépendante pour observer un meilleur ajustement, que ce soit via un log, un exposant ou une forme polynomiale.
la source