Je construis souvent un modèle (classification ou régression) où j'ai des variables prédictives qui sont des séquences et j'ai essayé de trouver des recommandations techniques pour les résumer de la meilleure façon possible pour les inclure comme prédicteurs dans le modèle.
À titre d'exemple concret, disons qu'un modèle est en cours de construction pour prédire si un client quittera l'entreprise dans les 90 prochains jours (à tout moment entre t et t + 90; donc un résultat binaire). L'un des prédicteurs disponibles est le niveau de l'équilibre financier des clients pour les périodes t_0 à t-1. Cela représente peut-être des observations mensuelles pour les 12 mois précédents (soit 12 mesures).
Je cherche des moyens de construire des fonctionnalités de cette série. J'utilise des descriptifs de chaque série de clients tels que la moyenne, haut, bas, dév. Std, ajuste une régression OLS pour obtenir la tendance. Sont leurs autres méthodes de calcul des fonctionnalités? Autres mesures de changement ou de volatilité?
AJOUTER:
Comme mentionné dans une réponse ci-dessous, j'ai également envisagé (mais oublié d'ajouter ici) d'utiliser Dynamic Time Warping (DTW), puis un clustering hiérarchique sur la matrice de distance résultante - créant un certain nombre de clusters, puis utilisant l'appartenance au cluster comme fonctionnalité. La notation des données de test devrait probablement suivre un processus où le DTW a été effectué sur de nouveaux cas et les centroïdes de cluster - en faisant correspondre les nouvelles séries de données à leurs centroïdes les plus proches ...
L'extraction de fonctionnalités est toujours un défi et le sujet le moins abordé dans la littérature, car il dépend largement de l'application.
Quelques idées que vous pouvez essayer:
la source
À première vue, vous devez extraire des entités de votre série chronologique (x - 12) - x. Une approche possible consiste à calculer des métriques récapitulatives: moyenne, dispersion, etc. Mais ce faisant, vous perdrez toutes les informations relatives aux séries chronologiques. Mais les données extraites de la forme de la courbe peuvent être très utiles. Je vous recommande de parcourir cet article, où les auteurs proposent un algorithme de regroupement des séries temporelles. J'espère que ce sera utile. En plus de ce clustering, vous pouvez ajouter des statistiques récapitulatives à votre liste de fonctionnalités.
la source