Je n'ai pas l'habitude d'utiliser des variables au format de date dans R. Je me demande simplement s'il est possible d'ajouter une variable de date comme variable explicative dans un modèle de régression linéaire. Si c'est possible, comment interpréter le coefficient? Est-ce l'effet d'un jour sur la variable de résultat?
Voir mon essentiel avec un exemple de ce que j'essaie de faire.
Réponses:
S'appuyant sur les commentaires précédents sur Stack Overflow:
Oui, c'est logique. Ici, j'aborde la question générale et je suis heureux de laisser les experts R remplir les détails cruciaux. À mon avis, comme il s'agit maintenant de la validation croisée, nous ne devrions pas nous concentrer trop étroitement sur le logiciel préféré de l'affiche, bien que ce soit pour les personnes partageant les mêmes idées.
Les dates dans n'importe quel logiciel, si elles ne sont pas numériques, peuvent être converties en variables numériques, exprimées en années, jours, millisecondes ou autre depuis une certaine origine. Le coefficient associé à chaque date a des unités de dénominateur qui sont quelles que soient les unités de la date. Les unités du numérateur dépendent de celles de la réponse ou de la variable dépendante. (Les fonctions de liaison sans identité compliquent cela naturellement.)
Cependant, cela a généralement plus de sens lorsque les dates sont décalées vers une origine qui a du sens pour l'étude. Habituellement, mais pas nécessairement, l'origine doit être une date dans la période d'étude ou très proche de celle-ci.
Le cas le plus simple est peut-être la régression linéaire sur une variable de date en années. Ici, une régression de certains
response
surdate
exprimée en dates comme 2000 ou 2010 implique une interception qui est la valeur de l'response
année 0. Mis à part le détail calendaire qu'il n'y avait pas une telle année, une telle interception est souvent absurdement grande positive ou négative, ce qui est logique mais une distraction dans l'interprétation et la présentation (même à un public bien informé).Dans un exemple réel de travail avec des étudiants de premier cycle, le nombre de cyclones par an dans une certaine zone augmentait légèrement avec la date et une tendance linéaire semblait un premier coup de couteau raisonnable. L'ordonnée à l'origine de la régression était un grand nombre négatif, ce qui a causé beaucoup de perplexité jusqu'à ce qu'il soit réalisé que c'était, comme toujours, une extrapolation à l'année 0. Le décalage de l'origine à 2000 a produit de meilleurs résultats. (En fait, une régression de Poisson assurant des prédictions positives était encore meilleure, mais c'est une autre histoire.)
Régresser sur
date - 2000
ou quoi que ce soit est donc une bonne idée. Les détails de fond d'une étude indiquent souvent une bonne date de base, c'est-à-dire une nouvelle origine.L'utilisation d'autres modèles et / ou d'autres prédicteurs ne sape pas ce principe; cela l'obscurcit.
C'est également une bonne idée de représenter graphiquement les résultats en utilisant les dates auxquelles il est le plus facile de penser. Il peut s'agir des dates originales; ce n'est pas une contradiction, car c'est le même principe d'utilisation de ce qui est le plus facile à penser.
Une petite réflexion montre que le principe est beaucoup plus général. Nous sommes souvent mieux avec (20 ans) ou quelque chose comme ça, pour éviter des prévisions logiques mais maladroites pour l'âge 0.
EDIT 21 mars 2019 (original 29 juillet 2013): Ces arguments ont été discutés dans un contexte Stata à Cox, NJ 2015. Espèce d'origine. Journal Stata 15: 574-587 voir ici
EDIT 2 également le 4 décembre 2015 @whuber dans les commentaires soulève également l'importante question de la précision numérique. Souvent, les unités de temps sont correctes et les dates ou les dates-heures qui en résultent peuvent être très grandes, ce qui soulève des problèmes importants pour les sommes des carrés, etc. Il soulève un exemple de R. Pour que nous puissions ajouter (par exemple) que les dates-heures dans Stata sont des millisecondes depuis le début de 1960. Ce problème n'est pas du tout spécifique aux dates, car il peut survenir généralement avec des nombres qui sont très grands. ou très petit, mais cela vaut également la peine d'être signalé.
la source
R
Comme indiqué ci-dessus, avec une mise à l'échelle appropriée, les dates sont d'excellents régresseurs. Les effets de temps sont moins susceptibles d'être linéaires que même les covariables typiques, donc j'utilise presque toujours des splines de régression dans le temps. Certaines tendances temporelles complexes nécessitent de nombreux nœuds (par exemple, 7 ou plus) pour s'adapter. Les splines cubiques restreintes (splines naturelles) fournissent une extrapolation linéaire plus sûre au-delà de la fin des temps observés, bien que l'extrapolation soit rarement totalement sûre.
la source