Quelle serait l'approche d'utiliser Dynamic Time Warping (DTW) pour regrouper des séries chronologiques?
J'ai lu que DTW était un moyen de trouver des similitudes entre deux séries chronologiques, alors qu'elles pouvaient être décalées dans le temps. Puis-je utiliser cette méthode comme mesure de similarité pour un algorithme de classification tel que k-means?
time-series
clustering
Marko
la source
la source
Réponses:
N'utilisez pas k-means pour les séries chronologiques.
DTW n'est pas minimisé par la moyenne; Les k-moyennes peuvent ne pas converger et même si elles convergent, cela ne donnera pas un très bon résultat. La moyenne est un estimateur des moindres carrés sur les coordonnées. Il minimise la variance, pas les distances arbitraires, et k-moyennes est conçu pour minimiser la variance, pas les distances arbitraires .
Supposons que vous avez deux séries chronologiques. Deux ondes sinusoïdales de même fréquence et d’une période d’échantillonnage assez longue; mais ils sont compensés par . Depuis que DTW réduit le temps, il peut les aligner afin qu’ils correspondent parfaitement, à l’exception du début et de la fin. DTW attribuera une distance relativement petite à ces deux séries. Cependant, si vous calculezπ moyenne des deux séries, ce sera un 0 - elles s’annulent. La moyenne ne fait pas de décalage temporel dynamique et perd toute la valeur obtenue par DTW. Sur de telles données, les k-moyennes risquent de ne pas converger et les résultats n'auront aucun sens. Les K-moyennes ne doivent en réalité être utilisées qu'avec variance (= carré euclidien), ou dans certains cas équivalents (comme le cosinus, données normalisées L2, où la similarité cosinus estla même chose que distance euclidienne au carré)2−
Au lieu de cela, calculez une matrice de distance à l'aide de DTW, puis exécutez un clustering hiérarchique tel qu'un lien simple. Contrairement aux k-moyennes, la série peut même avoir une longueur différente.
la source
Oui, vous pouvez utiliser l' approche DTW pour la classification et le regroupement de séries chronologiques . J'ai compilé les ressources suivantes , qui traitent de ce sujet particulier (j'ai récemment répondu à une question similaire, mais pas sur ce site, je copie donc le contenu ici pour la commodité de tous):
la source
Une méthode récente DTW Barycenter Averaging (DBA) a été proposée par Petitjean et al. à des séries chronologiques moyennes. Dans un autre article, ils ont prouvé empiriquement et théoriquement comment utiliser cette méthode pour regrouper des séries chronologiques avec des k-moyennes. Une implémentation est fournie sur GitHub par les auteurs ( lien vers code ).
1 F. Petitjean, G. Forestier, GI Webb, AE Nicholson, Y. Chen et E. Keogh, «La mise en moyenne temporelle dynamique de la série chronologique permet une classification plus rapide et plus précise», conférence internationale de l'IEEE sur l'exploration de données, 2014, Shenzhen, 2014 .
2 F. Petitjean, P. Gançarski, Synthèse d'un ensemble de séries chronologiques en faisant la moyenne: de la séquence de Steiner à l'alignement multiple compact, Informatique théorique, Volume 414, numéro 1, 2012
la source
Dynamic Time Warp compare les points de données réalisés, qui peuvent ou non fonctionner. Une approche plus rigoureuse consiste à comparer la distribution de la série chronologique au moyen d’une métrique appelée distance du télescope. .
La bonne chose à propos de cette métrique est que le calcul empirique est effectué en ajustant une série de classificateurs binaires tels que SVM.
Pour une brève explication, voir ceci .
Pour les séries chronologiques de regroupement, il a été démontré que ses performances étaient supérieures à celles de DTW; voir le tableau 1 dans le document d'origine [1].
[1] Ryabko, D. et Mary, J. (2013). Métrique basée sur une classification binaire entre les distributions de séries chronologiques et son utilisation dans les problèmes statistiques et d'apprentissage. Le journal de la recherche en apprentissage machine, 14 (1), 2837-2856.
la source
Oui. Une approche naïve et potentiellement lente pourrait être,
n! / k! / (n-k)!
. Ce serait quelque chose comme des centres potentiels.Je l'ai utilisé pour un petit projet. Voici le mon référentiel sur le clustering de séries chronologiques et mon autre réponse à ce sujet.
la source