"Heure du jour" où la valeur peut être 0, 1, 2, ..., 23 est-elle une variable catégorielle? Je serais tenté de dire non, car 5, par exemple, est «plus proche» de 4 ou 6 que de 3 ou 7.
Par contre, il y a la discontinuité entre 23 et 0.
Est-ce donc généralement considéré comme catégorique ou non? Notez que «heure» est l'une des variables indépendantes, pas la variable que j'essaie de prédire.
categorical-data
circular-statistics
Paul Reiners
la source
la source
Réponses:
Selon ce que vous voulez modéliser, les heures (et de nombreux autres attributs comme les saisons) sont en fait des variables cycliques ordinales. En cas de saisons, vous pouvez les considérer comme plus ou moins catégoriques, et en cas d'heures, vous pouvez également les modéliser comme continues.
Cependant, l'utilisation d'heures dans votre modèle sous une forme qui ne prend pas en charge la cyclicité pour vous ne sera pas fructueuse. Essayez plutôt de trouver une sorte de transformation. En utilisant les heures, vous pouvez utiliser une approche trigonométrique en
Ainsi, vous utiliseriez plutôt
xhr
etyhr
pour la modélisation. Voir cet article par exemple: Utilisation de prédicteurs circulaires dans la régression linéaire .la source
xhr = sin(4*pi*hr/24)
,yhr = cos(4*pi*hr/24)
et ainsi de suite peuvent être ajoutés, jusqu'au point où avec suffisamment d'observations, vous pouvez aussi traiter les heures de la journée comme catégoriques.)L'heure du jour n'est pas mieux représentée comme une variable catégorielle, car il y a un ordre naturel des valeurs. La couleur des cheveux, par exemple, est catégorique, car l'ordre des catégories n'a pas de sens - {rouge, brun, blond} est aussi valable que {blond, brun, rouge}. L'heure de la journée, en revanche, a un ordre naturel - 9h est plus proche de 10h ou 8h que de 18h. Il est préférable de la considérer comme une variable ordinale discrète. Il a une caractéristique supplémentaire d'être cyclique, car 12h suit 23h et précède 1h du matin.
la source
Théoriquement, cela dépend de la façon dont vous formatez la variable, c'est-à-dire qu'elle peut être "continue" (modélisée avec un seul coefficient) ou catégorique (un coefficient par "heure" de la journée). Vous pouvez également faire un mélange des deux, par exemple des fonctions par morceaux.
En pratique, parce que 0 et 23 sont essentiellement la même «heure» de la journée, je considérerais de regrouper les périodes de la journée en groupes plus grands, plus homogènes et plus crédibles. Par exemple, par incréments de 8 heures - 8 h à 16 h, 16 h à 12 h et 12 h à 8 h.
la source