J'ai un ensemble de données contenant 365 observations de trois variables à savoir pm
, temp
et rain
. Maintenant, je veux vérifier le comportement de la pm
réponse aux changements dans les deux autres variables. Mes variables sont:
pm10
= Réponse (dépendante)temp
= prédicteur (indépendant)rain
= prédicteur (indépendant)
Voici la matrice de corrélation pour mes données:
> cor(air.pollution)
pm temp rainy
pm 1.00000000 -0.03745229 -0.15264258
temp -0.03745229 1.00000000 0.04406743
rainy -0.15264258 0.04406743 1.00000000
Le problème est que lorsque j'étudiais la construction de modèles de régression, il a été écrit que la méthode additive consiste à commencer par la variable qui est la plus étroitement liée à la variable de réponse. Dans mon ensemble de données, il rain
y a une forte corrélation avec pm
(par rapport à temp
), mais en même temps c'est une variable fictive (pluie = 1, pas de pluie = 0), donc j'ai maintenant un indice d'où je dois commencer. Je joins deux images à la question: Le premier est un diagramme de dispersion des données, et la seconde image est un nuage de points pm10
contre rain
, je suis incapable d'interpréter scatterplot de pm10
contre rain
. Quelqu'un peut-il m'aider à commencer?
la source
Réponses:
Beaucoup de gens pensent que vous devez utiliser une stratégie comme commencer avec la variable la plus associée, puis ajouter des variables supplémentaires à tour de rôle jusqu'à ce que l'une ne soit pas significative. Cependant, aucune logique n'impose cette approche. De plus, il s'agit d'une sorte de stratégie de sélection / recherche de variable «gourmande» (cf., ma réponse ici: Algorithmes de sélection automatique de modèle ). Vous n'êtes pas obligé de faire cela , et vraiment, vous ne devriez pas. Si vous voulez connaître la relation entre
pm
, ettemp
etrain
, ajustez simplement un modèle de régression multiple avec les trois variables. Vous devrez toujours évaluer le modèle pour déterminer s'il est raisonnable et si les hypothèses sont remplies, mais c'est tout. Si vous voulez tester une hypothèse a priori, vous pouvez le faire avec le modèle. Si vous souhaitez évaluer la précision prédictive hors échantillon du modèle, vous pouvez le faire avec une validation croisée.Vous ne devez pas non plus vraiment vous soucier de la multicolinéarité. La corrélation entre
temp
etrain
est répertoriée comme0.044
dans votre matrice de corrélation. Il s'agit d'une corrélation très faible et ne devrait pas poser de problème.la source
Bien que cela ne concerne pas directement votre ensemble de données déjà collecté, une autre chose que vous pourriez essayer la prochaine fois que vous collectez des données comme celle-ci est d'éviter d'enregistrer la «pluie» sous forme binaire. Vos données seraient probablement plus informatives si vous aviez plutôt mesuré le taux de pluie (cm / heure), ce qui vous donnerait une variable distribuée en continu (jusqu'à votre précision de mesure) de 0 ... max_rainfall.
Cela vous permettrait de corréler non seulement "est-ce qu'il pleut" avec les autres variables, mais aussi "combien il pleut".
la source