Comment commencer à construire un modèle de régression lorsque le prédicteur le plus fortement associé est binaire

11

J'ai un ensemble de données contenant 365 observations de trois variables à savoir pm, tempet rain. Maintenant, je veux vérifier le comportement de la pmréponse aux changements dans les deux autres variables. Mes variables sont:

  • pm10 = Réponse (dépendante)
  • temp = prédicteur (indépendant)
  • rain = prédicteur (indépendant)

Voici la matrice de corrélation pour mes données:

> cor(air.pollution)
               pm        temp       rainy
pm     1.00000000 -0.03745229 -0.15264258
temp  -0.03745229  1.00000000  0.04406743
rainy -0.15264258  0.04406743  1.00000000

Le problème est que lorsque j'étudiais la construction de modèles de régression, il a été écrit que la méthode additive consiste à commencer par la variable qui est la plus étroitement liée à la variable de réponse. Dans mon ensemble de données, il rainy a une forte corrélation avec pm(par rapport à temp), mais en même temps c'est une variable fictive (pluie = 1, pas de pluie = 0), donc j'ai maintenant un indice d'où je dois commencer. Je joins deux images à la question: Le premier est un diagramme de dispersion des données, et la seconde image est un nuage de points pm10contre rain, je suis incapable d'interpréter scatterplot de pm10contre rain. Quelqu'un peut-il m'aider à commencer?

c'est un nuage de points de mes données

nuage de points de pm10 en fonction de la pluie

Syed Asif Ali Shah
la source
3
C'est une question parfaitement viable, OMI, même si elle procède d'un malentendu.
gung - Rétablir Monica
yjeXje1,Xje2,,Xjep|rjk|>0,8

Réponses:

17

Beaucoup de gens pensent que vous devez utiliser une stratégie comme commencer avec la variable la plus associée, puis ajouter des variables supplémentaires à tour de rôle jusqu'à ce que l'une ne soit pas significative. Cependant, aucune logique n'impose cette approche. De plus, il s'agit d'une sorte de stratégie de sélection / recherche de variable «gourmande» (cf., ma réponse ici: Algorithmes de sélection automatique de modèle ). Vous n'êtes pas obligé de faire cela , et vraiment, vous ne devriez pas. Si vous voulez connaître la relation entre pm, et tempetrain, ajustez simplement un modèle de régression multiple avec les trois variables. Vous devrez toujours évaluer le modèle pour déterminer s'il est raisonnable et si les hypothèses sont remplies, mais c'est tout. Si vous voulez tester une hypothèse a priori, vous pouvez le faire avec le modèle. Si vous souhaitez évaluer la précision prédictive hors échantillon du modèle, vous pouvez le faire avec une validation croisée.

Vous ne devez pas non plus vraiment vous soucier de la multicolinéarité. La corrélation entre tempet rainest répertoriée comme 0.044dans votre matrice de corrélation. Il s'agit d'une corrélation très faible et ne devrait pas poser de problème.

gung - Réintégrer Monica
la source
1
merci beaucoup pour vos aimables suggestions. Je suis nouveau sur ce site, je ne sais pas comment l'utiliser, pouvez-vous s'il vous plaît fournir des suggestions supplémentaires ou étudier du matériel
Syed Asif Ali Shah
1
@SyedAsifAliShah, à part que l'anglais ne semble pas être votre langue maternelle, je ne vois aucun problème avec la façon dont vous utilisez le site. En ce qui concerne le matériel d'étude, vous pouvez regarder ceci ou cela , ou simplement parcourir nos discussions avec la balise références .
gung - Rétablir Monica
dois-je essayer un modèle linéaire ou un GLM pour mes données ??
Syed Asif Ali Shah
1
@SyedAsifAliShah, un modèle linéaire est probablement adapté à vos données.
gung - Réintégrer Monica
bro j'ai besoin de votre aide
Syed Asif Ali Shah
10

Bien que cela ne concerne pas directement votre ensemble de données déjà collecté, une autre chose que vous pourriez essayer la prochaine fois que vous collectez des données comme celle-ci est d'éviter d'enregistrer la «pluie» sous forme binaire. Vos données seraient probablement plus informatives si vous aviez plutôt mesuré le taux de pluie (cm / heure), ce qui vous donnerait une variable distribuée en continu (jusqu'à votre précision de mesure) de 0 ... max_rainfall.

Cela vous permettrait de corréler non seulement "est-ce qu'il pleut" avec les autres variables, mais aussi "combien il pleut".

JKreft
la source
salut frère, j'ai fait la même chose selon votre suggestion, j'ai recueilli des données complètes sur la pluie et le modèle de construction
Syed Asif Ali Shah
puis-je demander votre email s'il vous plaît ??? je veux juste poser quelques questions
Syed Asif Ali Shah
Si vous avez des questions supplémentaires sur la configuration de votre modèle, une nouvelle question StackExchange serait peut-être la solution. De cette façon, vous pouvez obtenir des commentaires de plus de gens, dont beaucoup sont plus experts que moi.
JKreft