Est-il judicieux d'utiliser une variable de date dans une régression?

17

Je n'ai pas l'habitude d'utiliser des variables au format de date dans R. Je me demande simplement s'il est possible d'ajouter une variable de date comme variable explicative dans un modèle de régression linéaire. Si c'est possible, comment interpréter le coefficient? Est-ce l'effet d'un jour sur la variable de résultat?

Voir mon essentiel avec un exemple de ce que j'essaie de faire.

PAC
la source
3
Une date peut être convertie en nombre.
mon impression est que R le fait automatiquement
PAC
3
Mais les chiffres résultants sont souvent énormes, ce qui peut entraîner des problèmes. Mieux vaut se convertir, par exemple en pas de temps (heures ou jours ou ...) depuis le début des mesures. Cela facilite également l'interprétation de l'interception.
Roland
3
Convertir en facteur (pour obtenir des effets fixes sur le jour) ou convertir en numérique et redimensionner de sorte que la valeur du premier jour soit 0 pour obtenir un effet linéaire des jours depuis l'origine.
Thomas
1
Voilà une très bonne question. Je pense que c'est à la fois une question statistique et une question de programmation. La question de programmation est de savoir comment R traite les dates lorsque nous mettons les dates comme variable explicative dans un modèle de régression et la question statistique concerne l'interprétation exacte du coefficient.
PAC

Réponses:

17

S'appuyant sur les commentaires précédents sur Stack Overflow:

Oui, c'est logique. Ici, j'aborde la question générale et je suis heureux de laisser les experts R remplir les détails cruciaux. À mon avis, comme il s'agit maintenant de la validation croisée, nous ne devrions pas nous concentrer trop étroitement sur le logiciel préféré de l'affiche, bien que ce soit pour les personnes partageant les mêmes idées.

Les dates dans n'importe quel logiciel, si elles ne sont pas numériques, peuvent être converties en variables numériques, exprimées en années, jours, millisecondes ou autre depuis une certaine origine. Le coefficient associé à chaque date a des unités de dénominateur qui sont quelles que soient les unités de la date. Les unités du numérateur dépendent de celles de la réponse ou de la variable dépendante. (Les fonctions de liaison sans identité compliquent cela naturellement.)

Cependant, cela a généralement plus de sens lorsque les dates sont décalées vers une origine qui a du sens pour l'étude. Habituellement, mais pas nécessairement, l'origine doit être une date dans la période d'étude ou très proche de celle-ci.

Le cas le plus simple est peut-être la régression linéaire sur une variable de date en années. Ici, une régression de certains responsesur dateexprimée en dates comme 2000 ou 2010 implique une interception qui est la valeur de l' responseannée 0. Mis à part le détail calendaire qu'il n'y avait pas une telle année, une telle interception est souvent absurdement grande positive ou négative, ce qui est logique mais une distraction dans l'interprétation et la présentation (même à un public bien informé).

Dans un exemple réel de travail avec des étudiants de premier cycle, le nombre de cyclones par an dans une certaine zone augmentait légèrement avec la date et une tendance linéaire semblait un premier coup de couteau raisonnable. L'ordonnée à l'origine de la régression était un grand nombre négatif, ce qui a causé beaucoup de perplexité jusqu'à ce qu'il soit réalisé que c'était, comme toujours, une extrapolation à l'année 0. Le décalage de l'origine à 2000 a produit de meilleurs résultats. (En fait, une régression de Poisson assurant des prédictions positives était encore meilleure, mais c'est une autre histoire.)

Régresser sur date - 2000ou quoi que ce soit est donc une bonne idée. Les détails de fond d'une étude indiquent souvent une bonne date de base, c'est-à-dire une nouvelle origine.

L'utilisation d'autres modèles et / ou d'autres prédicteurs ne sape pas ce principe; cela l'obscurcit.

C'est également une bonne idée de représenter graphiquement les résultats en utilisant les dates auxquelles il est le plus facile de penser. Il peut s'agir des dates originales; ce n'est pas une contradiction, car c'est le même principe d'utilisation de ce qui est le plus facile à penser.

Une petite réflexion montre que le principe est beaucoup plus général. Nous sommes souvent mieux avec (20 ans) ou quelque chose comme ça, pour éviter des prévisions logiques mais maladroites pour l'âge 0.

EDIT 21 mars 2019 (original 29 juillet 2013): Ces arguments ont été discutés dans un contexte Stata à Cox, NJ 2015. Espèce d'origine. Journal Stata 15: 574-587 voir ici

EDIT 2 également le 4 décembre 2015 @whuber dans les commentaires soulève également l'importante question de la précision numérique. Souvent, les unités de temps sont correctes et les dates ou les dates-heures qui en résultent peuvent être très grandes, ce qui soulève des problèmes importants pour les sommes des carrés, etc. Il soulève un exemple de R. Pour que nous puissions ajouter (par exemple) que les dates-heures dans Stata sont des millisecondes depuis le début de 1960. Ce problème n'est pas du tout spécifique aux dates, car il peut survenir généralement avec des nombres qui sont très grands. ou très petit, mais cela vaut également la peine d'être signalé.

Nick Cox
la source
1
Econométriquement parlant, la date est souvent utilisée comme proxy pour une variable incommensurable, ou simplement des données que vous ne pouvez pas facilement obtenir. Cela peut être vu dans l'augmentation du taux de vente d'un certain produit d'une nouvelle entreprise au fil du temps à mesure que la reconnaissance de la marque augmente. Étant donné que vous n'avez probablement pas de métrique pour la reconnaissance de la marque, la date peut être utilisée comme proxy. Cela donnerait à vos autres régresseurs des coefficients "plus réalistes". ** TL: DR ** vous devriez être prudent en utilisant la date dans votre régression sans penser à quels facteurs non mesurés la date peut être corrélée et qui affecterait votre variable indépendante
scott
1
Bon conseil. Je suppose que (une fonction de) la date du calendrier est généralement un proxy pour un processus dans le temps qui est difficile à saisir autrement, donc le point s'étend bien au-delà de l'économétrie.
Nick Cox
1
J'aime autant les sinus et les cosinus que quiconque, mais quel échantillonnage de problèmes dans toutes les disciplines conduit à ce jugement?
Nick Cox
1
Si vous êtes intéressé, consultez stata-journal.com/sjsearch.html?choice=keyword&q=season pour des liens vers certains de mes travaux sur la saisonnalité.
Nick Cox
3
R1
5

Comme indiqué ci-dessus, avec une mise à l'échelle appropriée, les dates sont d'excellents régresseurs. Les effets de temps sont moins susceptibles d'être linéaires que même les covariables typiques, donc j'utilise presque toujours des splines de régression dans le temps. Certaines tendances temporelles complexes nécessitent de nombreux nœuds (par exemple, 7 ou plus) pour s'adapter. Les splines cubiques restreintes (splines naturelles) fournissent une extrapolation linéaire plus sûre au-delà de la fin des temps observés, bien que l'extrapolation soit rarement totalement sûre.

Frank Harrell
la source