L'heure est-elle une variable catégorielle?

24

"Heure du jour" où la valeur peut être 0, 1, 2, ..., 23 est-elle une variable catégorielle? Je serais tenté de dire non, car 5, par exemple, est «plus proche» de 4 ou 6 que de 3 ou 7.

Par contre, il y a la discontinuité entre 23 et 0.

Est-ce donc généralement considéré comme catégorique ou non? Notez que «heure» est l'une des variables indépendantes, pas la variable que j'essaie de prédire.

Paul Reiners
la source
7
Qu'est-ce que vous essayez d'accomplir? Si vous ajustez un modèle, l'heure est-elle une covariable ou la réponse, par exemple?
gung - Rétablir Monica
2
Vous pouvez utiliser une variable fictive pour chaque heure si vous disposez de suffisamment de degrés de liberté (c'est-à-dire traiter comme catégorique), ou utiliser les premiers termes de Fourier si ce n'est pas le cas. En général, réfléchissez à la meilleure façon de représenter une relation potentielle avec la réponse - une seule variable fictive signalant l'ouverture des magasins pourrait servir.
Scortchi - Réintégrer Monica
Quelque chose comme l'heure peut être traitée comme "catégorique" ou "numérique" selon ce qui fonctionne le mieux. Il n'y a pas de bonne ou de mauvaise réponse en général - cela dépend de ce qui fonctionne le mieux. Je recommanderais d'essayer différentes choses et de voir ce qui fonctionne le mieux dans votre situation.
roundsquare

Réponses:

29

Selon ce que vous voulez modéliser, les heures (et de nombreux autres attributs comme les saisons) sont en fait des variables cycliques ordinales. En cas de saisons, vous pouvez les considérer comme plus ou moins catégoriques, et en cas d'heures, vous pouvez également les modéliser comme continues.

Cependant, l'utilisation d'heures dans votre modèle sous une forme qui ne prend pas en charge la cyclicité pour vous ne sera pas fructueuse. Essayez plutôt de trouver une sorte de transformation. En utilisant les heures, vous pouvez utiliser une approche trigonométrique en

xhr = sin(2*pi*hr/24)
yhr = cos(2*pi*hr/24)

Ainsi, vous utiliseriez plutôt xhret yhrpour la modélisation. Voir cet article par exemple: Utilisation de prédicteurs circulaires dans la régression linéaire .

Drey
la source
2
(+1) Pourriez-vous nous expliquer la différence entre les saisons et les heures?
Scortchi - Réintégrer Monica
Hmm, je pense que les saisons ont une signification similaire à celle du matin, du midi et du soir lorsque l'on parle des heures de la journée. À mon humble avis lorsque seules des informations vagues sont disponibles et que la résolution est médiocre (comme 4 valeurs dans les saisons), les considérer comme catégoriques et utiliser des variables factices pour l'encodage semble raisonnable. :-)
Drey
1
Je pense que le point clé est que, parce qu'il n'y a que 4 saisons, en utilisant le trig. approche par rapport à une représentation catégorique, vous n'épargnez qu'un degré de liberté - avec des heures de la journée, vous épargnez 21 degrés de liberté. (Et si vous n'avez pas besoin de les épargner, alors xhr = sin(4*pi*hr/24), yhr = cos(4*pi*hr/24)et ainsi de suite peuvent être ajoutés, jusqu'au point où avec suffisamment d'observations, vous pouvez aussi traiter les heures de la journée comme catégoriques.)
Scortchi - Réinstaurer Monica
Ou regardez dans les splines cycliques .
kjetil b halvorsen
1

L'heure du jour n'est pas mieux représentée comme une variable catégorielle, car il y a un ordre naturel des valeurs. La couleur des cheveux, par exemple, est catégorique, car l'ordre des catégories n'a pas de sens - {rouge, brun, blond} est aussi valable que {blond, brun, rouge}. L'heure de la journée, en revanche, a un ordre naturel - 9h est plus proche de 10h ou 8h que de 18h. Il est préférable de la considérer comme une variable ordinale discrète. Il a une caractéristique supplémentaire d'être cyclique, car 12h suit 23h et précède 1h du matin.

Nuclear Wang
la source
N'y a-t-il pas un ordre naturel des valeurs de certaines variables catégorielles?
dsaxton
Oui, mais ils sont mieux décrits comme ordinaux dans ce cas. Les variables ordinales sont des variables catégorielles qui ont une séquence naturelle.
Nuclear Wang
1
Alors, comment représenteriez-vous une variable cyclique discrète, ordinale comme prédicteur dans un modèle de régression?
Scortchi - Réintégrer Monica
0

Théoriquement, cela dépend de la façon dont vous formatez la variable, c'est-à-dire qu'elle peut être "continue" (modélisée avec un seul coefficient) ou catégorique (un coefficient par "heure" de la journée). Vous pouvez également faire un mélange des deux, par exemple des fonctions par morceaux.

En pratique, parce que 0 et 23 sont essentiellement la même «heure» de la journée, je considérerais de regrouper les périodes de la journée en groupes plus grands, plus homogènes et plus crédibles. Par exemple, par incréments de 8 heures - 8 h à 16 h, 16 h à 12 h et 12 h à 8 h.

Frank H.
la source
4
0 et 23 sont des heures distinctes. 0 et 24 seraient la même heure.
Paul Reiners
BTW, je suppose par le commentaire de Gung que l'heure du jour est une variable indépendante, pas la variable dépendante modélisée. Mon point est que 0 et 23 ne sont pas si différents dans la réalité - diriez-vous qu'il existe une différence statistique entre votre événement modélisé se produisant à 23h59 contre 0h01?
Frank H.
1
Je ne sais pas quel problème jeter des informations est censé résoudre. Voir Quel est l'avantage de séparer une variable prédictive continue? .
Scortchi - Réintégrer Monica
@Scortchi - comme le dit le post, vous supposez une relation continue telle que le regroupement "jetterait" les informations. Mais si ce n'est pas le cas, le binning est la transformation la plus appropriée. Et cela suppose que vous avez suffisamment de données pour commencer, ce que l'OP n'a pas mentionné.
Frank H.
Imposer des contraintes sur la relation entre un prédicteur et la réponse n'est pas en soi une mauvaise chose - comme vous êtes le premier dans ce post à évoquer, combien d'observations sont disponibles est une considération importante -, mais celle imposée par ce la représentation de l'heure du jour - plate de la huitième à la quinzième heure, avec un saut ou une baisse à la seizième, etc. - semble une étrange suggestion pour une approche généralement appropriée.
Scortchi - Réintégrer Monica