Je ne sais pas s'il s'agit d'une pratique courante ou d'une meilleure pratique, mais c'est un autre point de vue.
Si vous avez, par exemple, une date, vous pouvez traiter chaque champ comme une "variable de catégorie" au lieu de "variable continue". Le jour aurait une valeur dans l'ensemble {1, 2 ..., 31}, le mois aurait une valeur dans {1, ..., 12} et, pour l'année, vous choisiriez une valeur minimale et une valeur maximale. et construire un ensemble.
Ensuite, comme les valeurs numériques spécifiques des jours, des mois et des années peuvent ne pas être utiles pour rechercher des tendances dans les données, utilisez une représentation binaire pour coder les valeurs numériques, chaque bit constituant une entité. Par exemple, le mois 5 serait 0 0 0 0 1 0 0 0 0 0 0 0
(11 0 un 1 en 5ème position, chaque bit étant une caractéristique).
Ainsi, ayant, par exemple, 10 ans dans "l'ensemble de l'année", une date serait transformée en un vecteur de 43 caractéristiques (= 31 + 12 + 10). En utilisant des "vecteurs clairsemés", la quantité de fonctionnalités ne devrait pas être un problème.
Quelque chose de similaire pourrait être fait pour les données temporelles, le jour de la semaine, le jour du mois ...
Tout dépend de la question à laquelle votre modèle d’apprentissage automatique doit répondre.
Contexte de ma réponse : Il y a eu d'excellentes réponses jusqu'à présent. Mais je veux prolonger la conversation en supposant que vous parlez d'une application d'apprentissage automatique pour prédire les valeurs futures de cette série temporelle particulière. Dans ce contexte, mon conseil est le suivant.
Conseil : Commencez par examiner les stratégies de prévision statistique traditionnelles (à savoir, le lissage exponentiel, SARIMAX ou la régression dynamique) comme base de référence pour la performance de prévision. Bien que l’apprentissage automatique ait été très prometteur pour une variété d’applications, il existe, pour les séries chronologiques, des méthodes statistiques éprouvées qui peuvent mieux vous servir. Je voudrais attirer votre attention sur deux articles récents:
Si vous recherchez de bonnes performances, choisissez une métrique à comparer à plusieurs modèles (comme MASE) et parcourez plusieurs modèles statistiques (références ci-dessous) et d’apprentissage automatique (avec les stratégies de développement d’éléments mentionnées ci-dessus).
À votre santé,
Ressources pour l'apprentissage de la prévision statistique : Je commencerais par passer en revue le manuel gratuit de Rob J Hyndman ici: https://otexts.org/fpp2/ . Le texte est basé sur un package R que vous pouvez facilement intégrer à votre analyse: https://otexts.org/fpp2/appendix-using-r.html . Enfin, veuillez noter la différence entre la validation transversale transversale et la validation transversale des séries chronologiques, comme expliqué ici: https://robjhyndman.com/hyndsight/tscv/ .
la source