Utilisation de prédicteurs circulaires dans la régression linéaire

19

J'essaie d'adapter un modèle à l'aide des données de vent (0, 359) et de l'heure (0, 23), mais je crains qu'ils ne s'intègrent mal dans une régression linéaire car ce ne sont pas eux-mêmes des paramètres linéaires. Je voudrais les transformer en Python. J'ai vu une certaine mention du calcul d'un vecteur moyen en prenant le sin et le cos des degrés, au moins dans le cas du vent, mais pas beaucoup.

Existe-t-il une bibliothèque Python ou une méthode pertinente qui pourrait être utile?

compguy24
la source
1
Merci d'avoir posé cette question. Notez que demander du code ou des bibliothèques est hors sujet (la majeure partie de votre question est certainement sur le sujet), de sorte que cet aspect peut ou non être couvert par les réponses ici.
gung - Rétablir Monica
Quelle est la variable de réponse (résultat, variable dépendante) ici? La direction et l'heure du vent sont-elles toutes deux des prédicteurs?
Nick Cox
@NickCox Oui, la direction et l'heure du vent sont des prédicteurs. Le résultat est une valeur entière représentant la concentration de particules (pollution de l'air). Il existe également d'autres prédicteurs, notamment la température, l'humidité, etc ... mais ceux-ci n'ont pas besoin d'être transformés je crois.
compguy24
1
J'ai pris la liberté de modifier le titre. Le titre précédent «Distribution linéaire des degrés autour d'un cercle» ne permettait pas du tout de saisir la question.
Nick Cox

Réponses:

24

0=360

péché(π direction/180),cos(π direction/180)

2π=360

péché(π temps/12),cos(π temps/12)

ou

péché(π(temps+0,5)/12),cos(π(temps+0,5)/12)

selon exactement comment le temps a été enregistré ou doit être interprété.

Parfois, la nature ou la société est obligeante et la dépendance à la variable circulaire prend la forme d'une direction optimale pour la réponse et la direction opposée (la moitié du cercle plus loin) étant pessimale. Dans ce cas, un seul terme sinus et cosinus peut suffire; pour les modèles plus compliqués, vous aurez peut-être besoin d'autres termes. Pour plus de détails, un tutoriel sur cette technique de régression circulaire, de Fourier, périodique, trigonométrique peut être trouvé ici , avec à son tour d'autres références. La bonne nouvelle est qu'une fois que vous avez créé des termes sinus et cosinus, ils ne sont que des prédicteurs supplémentaires dans votre régression.

Il existe une grande littérature sur les statistiques circulaires, elles-mêmes considérées comme faisant partie des statistiques directionnelles. Curieusement, cette technique n'est souvent pas mentionnée, car la littérature se concentre généralement sur les variables de réponse circulaire. La récapitulation des variables circulaires par leurs moyennes vectorielles est une méthode descriptive standard mais n'est pas requise ni directement utile pour la régression.

Certains détails sur la terminologie La direction et l'heure du vent sont en termes statistiques des variables, pas des paramètres, quelle que soit l'utilisation dans votre branche scientifique.

yXββX[-1,1]

Commentaire fortuit Pour une variable de réponse telle que la concentration de particules, je m'attendrais à utiliser un modèle linéaire généralisé avec un lien logarithmique pour assurer des prédictions positives.

Nick Cox
la source