J'ai une question sur l'analyse de cluster. Il y a 3000 entreprises, qui doivent être regroupées en fonction de leur consommation d'énergie sur 5 ans. Chaque entreprise a des valeurs pour chaque heure pendant 5 ans. J'aimerais savoir si certaines entreprises ont le même modèle de puissance d'utilisation au cours de la période. Les résultats doivent être utilisés pour la prévision quotidienne de la consommation d'énergie. Si vous avez des idées sur la façon de regrouper des séries chronologiques dans SPSS, veuillez les partager avec moi.
time-series
clustering
spss
user89686
la source
la source
Réponses:
A) Consacrez beaucoup de temps au prétraitement des données. Le prétraitement représente 90% de votre travail.
B) Choisissez une mesure de similitude appropriée pour la série chronologique. Par exemple, la distance de franchissement de seuil peut être un bon choix ici. Vous ne souhaiterez probablement pas la distance de déformation temporelle dynamique, sauf si vous avez des fuseaux horaires différents. Le franchissement des seuils peut être plus approprié pour détecter les modèles temporels, tout en ne prêtant pas attention à l'ampleur réelle (qui sera probablement très différente d'une entreprise à l'autre).
C) Cluster la matrice de dissimlarité résultante en utilisant des méthodes telles que le clustering hiérarchique ou DBSCAN qui peuvent fonctionner avec des fonctions de distance arbitraires.
la source
Vous voudrez peut-être regarder les prévisions de séries chronologiques horaires avec une périodicité quotidienne, hebdomadaire et annuellepour une discussion des données horaires impliquant les données quotidiennes et les jours fériés / régresseurs. Vous disposez de 5 années de données tandis que l'autre discussion portait sur 883 valeurs quotidiennes. Ce que je suggérerais, c'est que vous pourriez construire une prévision horaire intégrant des régresseurs tels que le jour de la semaine; semaine de l'année et jours fériés en utilisant des totaux quotidiens comme prédicteur supplémentaire. De cette façon, vous auriez 24 modèles pour chacune des 3 000 entreprises. Maintenant, ce que vous voulez faire, c'est par heure, estimer les 3 000 modèles en utilisant une structure ARIMAX commune tenant compte du modèle de réponse autour de chacun des régresseurs, le jour de la semaine, les changements dans le jour de la semaine paramètres et indicateurs hebdomadaires tout en isolant les valeurs aberrantes. Ensuite, vous pouvez estimer les paramètres à l'échelle mondiale en utilisant les 3000 entreprises. Effectuer un test Chow http://en.wikipedia.org/wiki/Chow_testpour la constance des paramètres et lors du rejet, les entreprises sont regroupées en groupes homogènes. J'ai appelé cela l'analyse de cluster à une dimension. Étant donné que SPSS a des capacités très limitées dans les séries temporelles, vous voudrez peut-être chercher ailleurs des logiciels.
la source