J'ai un ensemble de données mensuelles sur la température de surface de la mer (SST) et je souhaite appliquer une méthodologie de cluster pour détecter les régions avec des modèles SST similaires. J'ai un ensemble de fichiers de données mensuels de 1985 à 2009 et je souhaite appliquer le clustering à chaque mois dans un premier temps.
Chaque fichier contient des données quadrillées pour 358416 points dont environ 50% sont des terres et sont marqués avec une valeur de 99,99 qui sera NA. Le format des données est:
lon lat sst
-10.042 44.979 12.38
-9.998 44.979 12.69
-9.954 44.979 12.90
-9.910 44.979 12.90
-9.866 44.979 12.54
-9.822 44.979 12.37
-9.778 44.979 12.37
-9.734 44.979 12.51
-9.690 44.979 12.39
-9.646 44.979 12.36
J'ai essayé la méthode de clustering CLARA et j'ai obtenu des résultats apparemment agréables, mais il me semble également qu'il s'agit simplement de lisser (grouper) des isolignes. Ensuite, je ne suis pas sûr que ce soit la meilleure méthode de clustering pour analyser les données spatiales.
Existe-t-il une autre méthode de clustering dédiée à ce type d'ensembles de données? Une référence serait bonne pour commencer à lire.
Merci d'avance.
la source
Réponses:
Il existe différentes approches pour le clustering évolutif, l'approche de division et de conquête, le clustering parallèle et l'incrémentiel. Il s'agit d'une approche générale après avoir utilisé des méthodes de clustering normales. Il y a une bonne méthode de clustering que j'apprécie vraiment est DBSCAN (Densité-Based Spatial Clustering of Applications with Noise), c'est l'un des algorithmes de clustering les plus utilisés.
la source
PySAL est une bibliothèque python bien documentée pour l'analyse spatiale qui a un certain regroupement .
Une autre bibliothèque python en phase de développement qui se concentre sur le clustering spatial est clusterPy (présentation de diapositives pdf) .
Avec un choix plus limité d'algorithmes de clustering mais avec une belle interface de cartographie, le logiciel GUI GeoGrouper .
la source