Fractionnement des données de séries chronologiques en ensembles de train / test / validation

11

Quelle est la meilleure façon de diviser les données de séries chronologiques en ensembles train / test / validation, où l'ensemble de validation serait utilisé pour le réglage d'hyperparamètre?

Nous avons 3 ans de données de vente quotidiennes, et notre plan est d'utiliser 2015-2016 comme données de formation, puis échantillonner au hasard 10 semaines à partir des données 2017 à utiliser comme ensemble de validation, et 10 semaines supplémentaires à partir des données 2017 pour l'ensemble de test. Nous ferons ensuite une marche en avant pour chacun des jours de l'ensemble de test et de validation.

meraxes
la source

Réponses:

7

Vous devez utiliser une répartition basée sur le temps pour éviter le biais d'anticipation. Former / valider / tester dans cet ordre par le temps.

L'ensemble de tests doit être la partie la plus récente des données. Vous devez simuler une situation dans un environnement de production où, après la formation d'un modèle, vous évaluez les données venant après la création du modèle. L'échantillonnage aléatoire que vous utilisez pour la validation et la formation n'est donc pas une bonne idée.

vent
la source
4

Je pense que la façon la plus complète de tirer parti de vos données de séries chronologiques pour la formation / validation / test / prédiction est la suivante:

entrez la description de l'image ici

L'image est-elle explicite? Sinon, veuillez commenter et j'ajouterai plus de texte ...

elemolotiv
la source
3

Au lieu de créer un seul ensemble de formation / validation ensemble, vous pouvez créer plus de tels ensembles.

Le premier ensemble de formation pourrait être, disons, 6 mois de données (premier semestre de 2015) et l'ensemble de validation serait alors les trois prochains mois (juillet-août 2015). Le deuxième ensemble de formation serait une combinaison du premier ensemble de formation et de validation. L'ensemble de validation est alors les trois prochains mois (septembre-octobre 2015). Etc.

Il s'agit d'une variante de la validation croisée K-Fold où les ensembles de formation sont une combinaison de l'ensemble de formation et de validation précédent.

aathiraks
la source