Chaque observation dans mes données a été collectée avec une différence de 0,1 seconde. Je ne l'appelle pas une série chronologique car elle n'a pas d'horodatage. Dans les exemples d'algorithmes de clustering (que j'ai trouvés en ligne) et de PCA, les données d'échantillon ont 1 observation par cas et ne sont pas chronométrées. Mais mes données contiennent des centaines d'observations collectées toutes les 0,1 secondes par véhicule et il existe de nombreux véhicules.
Remarque: J'ai également posé cette question sur quora.
algorithms
umair durrani
la source
la source
Réponses:
Ce que vous avez est une séquence d'événements en fonction du temps alors n'hésitez pas à l'appeler Time Series!
Le regroupement dans les séries chronologiques a deux significations différentes:
Je suppose que vous voulez dire le deuxième et voici ma suggestion:
Vous avez de nombreux véhicules et de nombreuses observations par véhicule c'est-à-dire que vous avez de nombreux véhicules. Vous avez donc plusieurs matrices (chaque véhicule est une matrice) et chaque matrice contient N lignes (nombre d'observations) et T colonnes (points temporels). Une suggestion pourrait être d'appliquer l'APC à chaque matrice pour réduire la dimensionnalité et l'observation des données dans l'espace PC et voir s'il existe des relations significatives entre différentes observations au sein d'une matrice (véhicule) . Ensuite, vous pouvez mettre chaque observation pour tous les véhicules les uns sur les autres et créer une matrice et appliquer l'APC à celle-ci pour voir les relations d'une observation unique entre différents véhicules.
Si vous n'avez pas de valeurs négatives, la factorisation matricielle est fortement recommandée pour la réduction de dimension des données de forme matricielle.
Une autre suggestion pourrait être de placer toutes les matrices les unes sur les autres et de construire un tenseur N x M x T où N est le nombre de véhicules, M est le nombre d'observations et T est la séquence temporelle et appliquer la décomposition du tenseur pour voir les relations globalement.
Une très belle approche du clustering de séries temporelles est présentée dans cet article où la mise en œuvre est simple et silencieuse.
J'espère que ça a aidé!
Bonne chance :)
ÉDITER
Comme vous l'avez mentionné, vous voulez dire la segmentation des séries temporelles, j'ajoute ceci à la réponse.
La segmentation des séries chronologiques est le seul problème de regroupement qui a une vérité fondamentale pour l'évaluation. En effet, vous considérez la distribution génératrice derrière la série chronologique et analysez-la. Je recommande fortement ceci , ceci , ceci , ceci , ceci et ceci où votre problème est étudié de manière approfondie. Surtout le dernier et la thèse de doctorat.
Bonne chance!
la source