Je considère le problème de la classification (multiclass) basée sur des séries temporelles de longueur variable , c’est-à-dire que l’on cherche une fonction
parintermédiaireune représentation globale de la série de temps par un ensemble de certainséléments de taille fixe indépendant de ,
puis utilisation méthodes de classification standard sur cet ensemble de fonctionnalités.
Je ne suis pas intéressé par les prévisions, c'est-à-dire. Par exemple, nous pouvons analyser la façon dont une personne marche pour prédire son sexe.
Quelles sont les fonctionnalités standard que je peux prendre en compte? Par exemple, nous pouvons évidemment utiliser la moyenne et la variance de la série (ou des moments d'ordre supérieur) et également examiner le domaine fréquentiel, comme l'énergie contenue dans un intervalle de la transformée de Fourier discrète de la série (ou transformée en ondelettes discrète ).
Emile, je pense que les caractéristiques énumérées dans votre réponse sont de très bons points de départ, même si, comme toujours, je pense qu’une expertise du domaine (ou du moins une longue réflexion) sur votre problème est tout aussi importante.
Vous voudrez peut-être envisager d'inclure des fonctionnalités calculées à partir des dérivées (ou intégrales) de votre signal. Par exemple, je parierais que l'accélération / décélération rapide est un assez bon prédicteur de la conduite sujette aux accidents. Cette information est évidemment toujours présente dans le signal de position, mais elle n’est pas aussi explicite.
Vous pouvez également envisager de remplacer les coefficients de Fourier par une représentation en ondelettes ou en paquets d'ondelettes. Le principal avantage des ondelettes est qu’elles vous permettent de localiser une caractéristique à la fois en fréquence et en temps, alors que les coefficients de Fourier traditionnels sont limités à un temps. Cela peut être particulièrement utile si vos données contiennent des composants qui s’allument / s’arrêtent de manière irrégulière ou qui ont des impulsions en forme d’onde carrée qui peuvent poser problème pour les méthodes de Fourier.
la source
Comme les autres réponses l'ont suggéré, un grand nombre de caractéristiques de séries chronologiques peuvent être utilisées comme caractéristiques potentielles. Il existe des caractéristiques simples telles que la moyenne, des caractéristiques chronologiques telles que les coefficients d'un modèle RA ou des caractéristiques très sophistiquées telles que la statistique de test du test d'hypothèse augmenté de Dickey Fuller.
Aperçu complet sur les fonctionnalités possibles de la série temporelle
Le package python tsfresh automatise l'extraction de ces fonctionnalités. Sa documentation décrit les différentes fonctionnalités calculées. Vous pouvez trouver la page avec les fonctionnalités calculées ici .
Disclaimer: Je suis l'un des auteurs de tsfresh.
la source
Au lieu d'utiliser des approches classiques pour extraire des fonctionnalités conçues à la main, je vous suggère d'utiliser des auto-encodeurs . Les autoencodeurs jouent un rôle important dans l'extraction de caractéristiques de l'architecture d'apprentissage en profondeur.
La fonction identité semble être une fonction particulièrement triviale à essayer d'apprendre; mais en imposant des contraintes au réseau, par exemple en limitant le nombre d'unités cachées, nous pouvons découvrir une structure intéressante des données.
De cette façon, votre choix sera équivalent aux valeurs de sortie de la couche de middlemost dans une autoencoder profonde, Si vous limitez le nombre d'unités cachées dans le middlemost à .ϕ(XT)=v1,…,vD∈R D
En outre, vous pouvez utiliser de nombreux types d’auto-codeurs pour trouver la meilleure solution à votre problème.
la source
Le document lié sera quelque peu éclairant, car il s'intéresse plus ou moins au même problème dans un autre contexte.
Résumé de papier (dans les archives Internet)
PDF papier
la source
En fonction de la longueur de votre série chronologique, l’approche habituelle consiste à découper les données en segments, par exemple 10 secondes.
Cependant, souvent, avant de décomposer la série chronologique en segments, il est nécessaire d'effectuer certains prétraitements tels que le filtrage et le rejet d'artefacts. Vous pouvez ensuite calculer diverses caractéristiques telles que celles basées sur la fréquence (par exemple, prendre une FFT pour chaque époque), le temps (par exemple, la moyenne, la variance, etc. de la série chronologique à cette époque) ou la morphologie (par exemple, la forme du signal). / séries chronologiques à chaque époque).
Les caractéristiques utilisées pour classer les segments (époques) d'une série temporelle / d'un signal sont spécifiques à un domaine, mais l'analyse en ondelettes / Fourier ne sont que des outils vous permettant d'examiner votre signal dans les domaines fréquence / temps plutôt que d'être des caractéristiques en elles-mêmes.
Dans un problème de classification, chaque époque porte une étiquette de classe, par exemple «heureuse» ou «triste». Vous devez ensuite former un classificateur pour distinguer les périodes «heureuse» des «tristes» à l'aide des 6 caractéristiques calculées pour chaque époque.
Si chaque série chronologique représente un cas unique pour la classification, vous devez calculer chaque entité pour tous les échantillons de la série chronologique. La FFT n’est pertinente ici que si le signal est linéaire invariant dans le temps (LTI), c’est-à-dire si le signal peut être considéré comme stationnaire sur toute la série temporelle, si le signal n’est pas stationnaire sur la période considérée, une analyse en ondelettes peut être effectuée. plus approprié. Cette approche signifiera que chaque série temporelle produira un vecteur de caractéristiques et constituera un cas pour la classification.
la source