Recherche de données artificielles 2D pour démontrer les propriétés des algorithmes de clustering

9

Je recherche des ensembles de données de points de données bidimensionnels (chaque point de données est un vecteur de deux valeurs (x, y)) suivant différentes distributions et formes. Un code pour générer de telles données serait également utile. Je veux les utiliser pour tracer / visualiser le fonctionnement de certains algorithmes de clustering. Voici quelques exemples:

steffen
la source
Je vote pour cw;)
steffen
Une question similaire dans des lignes d'ensembles de données spécifiques a été fermée ici: stats.stackexchange.com/questions/38928/…
corbillard
Pour SPSS, j'ai écrit une macro génératrice de cluster (visitez ma page, voir "Générer des clusters"). Cependant, il ne produit pas de formes prétentieuses telles que des anneaux ou des spirales.
ttnphns

Réponses:

11

R est livré avec beaucoup de jeux de données, et il semble que ce ne serait pas très grave de reproduire la plupart des exemples que vous avez cités avec quelques lignes de code. Vous pouvez également trouver le package mlbench utile, en particulier les ensembles de données synthétiques commençant par mlbench.*. Quelques illustrations sont données ci-dessous.

entrez la description de l'image ici

Vous trouverez des exemples supplémentaires en consultant la vue des tâches de cluster sur CRAN. Par exemple, le package fpc possède un générateur intégré pour les ensembles de données de référence en cluster "en forme de face" ( rFace).

entrez la description de l'image ici

Des considérations similaires s'appliquent à Python, où vous trouverez des tests de référence et des jeux de données intéressants pour le clustering avec scikit-learn .

Le référentiel UCI Machine Learning héberge également de nombreux ensembles de données , mais il vaut mieux simuler les données vous-même avec la langue de votre choix.

chl
la source
2

Ce référentiel de regroupement de jouets contient divers ensembles de données au format ARFF (pouvant être facilement convertis en CSV), principalement avec des étiquettes de vérité au sol. Le benchmark devrait valider les propriétés de base souhaitées des algorithmes de clustering. La plupart des ensembles de données proviennent des documents de regroupement tels que:

  • BOULEAU - Zhang, Tian, ​​Raghu Ramakrishnan et Miron Livny. "BIRCH: une méthode efficace de clustering de données pour les très grandes bases de données." Enregistrement ACM SIGMOD. Vol. 25. No. 2. ACM, 1996.
  • CURE - Guha, Sudipto, Rajeev Rastogi et Kyuseok Shim. "CURE: un algorithme de clustering efficace pour les grandes bases de données." Enregistrement ACM SIGMOD. Vol. 27. No. 2. ACM, 1998.
  • Caméléon - Karypis, George, Eui-Hong Han et Vipin Kumar. "Chameleon: clustering hiérarchique utilisant la modélisation dynamique." Computer 32.8 (1999): 68-75.
  • The Fundamental Clustering Problem Suite - Ultsch, A .: Clustering with SOM: U * C, In Proc. Atelier sur les cartes auto-organisées, Paris, France, (2005), pp. 75-82
  • MOCK - Handl, Julia et Joshua Knowles. "Une approche évolutive du clustering multiobjectifs." Calcul évolutif, transactions IEEE sur 11.1 (2007): 56-76.
  • Grappe spectrale robuste basée sur le chemin - Chang, Hong et Dit-Yan Yeung. «Grappe spectrale robuste basée sur le chemin». Reconnaissance de formes 41.1 (2008): 191-203.

données karypis données de Cluto

Tombart
la source
1

ELKI est livré avec quelques ensembles de données (vérifiez également les tests unitaires, ils en contiennent beaucoup plus que ceux du site Web, ainsi que les réglages des paramètres).

Il comprend également un générateur de données assez flexible.

A QUIT - Anony-Mousse
la source
1

Voici un générateur de cluster personnalisable. Il ne concerne qu'une certaine classe d'ensembles de données, mais il peut sûrement être utilisé pour des investigations d'algorithmes de cluster.

Voici un exemple du type de clusters qu'il peut créer:

http://i.stack.imgur.com/vrCG5.png

L'affiliation au cluster est enregistrée dans un fichier texte. Le code est open source sous licence MIT.

Felix Dobslaw
la source
1

Ce script Matlab génère des données 2D pour le clustering. Il accepte plusieurs paramètres afin que les données générées soient conformes aux exigences de l'utilisateur.

faux
la source
0

Je ne peux pas croire que personne n'ait mentionné les données de Fisher's Iris.

Je ne pense pas avoir vu une technique de clustering qui n'utilise pas les données de l'iris comme exemple.

Dans r, tapez simplement "iris" pour accéder aux données.

Voici un exemple d'une belle (et typique) iris plot: http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/

geneorama
la source