Comment regrouper des séries chronologiques?

22

J'ai une question sur l'analyse de cluster. Il y a 3000 entreprises, qui doivent être regroupées en fonction de leur consommation d'énergie sur 5 ans. Chaque entreprise a des valeurs pour chaque heure pendant 5 ans. J'aimerais savoir si certaines entreprises ont le même modèle de puissance d'utilisation au cours de la période. Les résultats doivent être utilisés pour la prévision quotidienne de la consommation d'énergie. Si vous avez des idées sur la façon de regrouper des séries chronologiques dans SPSS, veuillez les partager avec moi.

user89686
la source
1
Je vous suggère de consulter les liens connexes sur le côté droit de la page. Il y a pas mal de questions de nature très similaire, voir Est-il possible de faire un regroupement de séries temporelles en fonction de la forme de la courbe? et la modélisation des données longitudinal où l'effet du temps varie sous une forme fonctionnelle entre les individus pour que deux exemples.
Andy W
Proc Similarité dans SAS peut regrouper des séries chronologiques.
prévisionniste

Réponses:

11

A) Consacrez beaucoup de temps au prétraitement des données. Le prétraitement représente 90% de votre travail.

B) Choisissez une mesure de similitude appropriée pour la série chronologique. Par exemple, la distance de franchissement de seuil peut être un bon choix ici. Vous ne souhaiterez probablement pas la distance de déformation temporelle dynamique, sauf si vous avez des fuseaux horaires différents. Le franchissement des seuils peut être plus approprié pour détecter les modèles temporels, tout en ne prêtant pas attention à l'ampleur réelle (qui sera probablement très différente d'une entreprise à l'autre).

C) Cluster la matrice de dissimlarité résultante en utilisant des méthodes telles que le clustering hiérarchique ou DBSCAN qui peuvent fonctionner avec des fonctions de distance arbitraires.

Anony-Mousse -Reinstate Monica
la source
pouvez-vous expliquer pourquoi la distance de déformation temporelle dynamique n'est pas une bonne option pour le regroupement de séries temporelles?
Hardik Gupta
Ce n'était pas une déclaration générale. Que ce soit bon ou non dépend de si vous voulez autoriser ou non la déformation du temps.
Anony-Mousse -Reinstate Monica
7

Vous voudrez peut-être regarder les prévisions de séries chronologiques horaires avec une périodicité quotidienne, hebdomadaire et annuellepour une discussion des données horaires impliquant les données quotidiennes et les jours fériés / régresseurs. Vous disposez de 5 années de données tandis que l'autre discussion portait sur 883 valeurs quotidiennes. Ce que je suggérerais, c'est que vous pourriez construire une prévision horaire intégrant des régresseurs tels que le jour de la semaine; semaine de l'année et jours fériés en utilisant des totaux quotidiens comme prédicteur supplémentaire. De cette façon, vous auriez 24 modèles pour chacune des 3 000 entreprises. Maintenant, ce que vous voulez faire, c'est par heure, estimer les 3 000 modèles en utilisant une structure ARIMAX commune tenant compte du modèle de réponse autour de chacun des régresseurs, le jour de la semaine, les changements dans le jour de la semaine paramètres et indicateurs hebdomadaires tout en isolant les valeurs aberrantes. Ensuite, vous pouvez estimer les paramètres à l'échelle mondiale en utilisant les 3000 entreprises. Effectuer un test Chow http://en.wikipedia.org/wiki/Chow_testpour la constance des paramètres et lors du rejet, les entreprises sont regroupées en groupes homogènes. J'ai appelé cela l'analyse de cluster à une dimension. Étant donné que SPSS a des capacités très limitées dans les séries temporelles, vous voudrez peut-être chercher ailleurs des logiciels.

IrishStat
la source
1
"vanille" semble un mot étrange à utiliser à propos de R; pas clair sur la traduction dans la terminologie R plus habituelle. Toute distinction entre la base R et les packages supplémentaires apportés par CRAN ne mord vraiment pas les utilisateurs expérimentés, ni même les novices, car ils sont tout aussi gratuits et accessibles. Mon impression est que quelqu'un qui a eu accès à SPSS peut dire assez facilement que quelque chose n'est pas possible dans SPSS actuellement sans programmation; dire la même chose à propos de R nécessite de se familiariser avec tous les packages de séries chronologiques.
Nick Cox