Je recherche des ensembles de données de points de données bidimensionnels (chaque point de données est un vecteur de deux valeurs (x, y)) suivant différentes distributions et formes. Un code pour générer de telles données serait également utile. Je veux les utiliser pour tracer / visualiser le fonctionnement de certains algorithmes de clustering. Voici quelques exemples:
9
Réponses:
R est livré avec beaucoup de jeux de données, et il semble que ce ne serait pas très grave de reproduire la plupart des exemples que vous avez cités avec quelques lignes de code. Vous pouvez également trouver le package mlbench utile, en particulier les ensembles de données synthétiques commençant par
mlbench.*
. Quelques illustrations sont données ci-dessous.Vous trouverez des exemples supplémentaires en consultant la vue des tâches de cluster sur CRAN. Par exemple, le package fpc possède un générateur intégré pour les ensembles de données de référence en cluster "en forme de face" (
rFace
).Des considérations similaires s'appliquent à Python, où vous trouverez des tests de référence et des jeux de données intéressants pour le clustering avec scikit-learn .
Le référentiel UCI Machine Learning héberge également de nombreux ensembles de données , mais il vaut mieux simuler les données vous-même avec la langue de votre choix.
la source
Voici quelques ensembles de données conçus exactement pour cette tâche:
La suite de problèmes de clustering fondamentaux par Ultsch
la source
Ce référentiel de regroupement de jouets contient divers ensembles de données au format ARFF (pouvant être facilement convertis en CSV), principalement avec des étiquettes de vérité au sol. Le benchmark devrait valider les propriétés de base souhaitées des algorithmes de clustering. La plupart des ensembles de données proviennent des documents de regroupement tels que:
la source
ELKI est livré avec quelques ensembles de données (vérifiez également les tests unitaires, ils en contiennent beaucoup plus que ceux du site Web, ainsi que les réglages des paramètres).
Il comprend également un générateur de données assez flexible.
la source
Voici un générateur de cluster personnalisable. Il ne concerne qu'une certaine classe d'ensembles de données, mais il peut sûrement être utilisé pour des investigations d'algorithmes de cluster.
Voici un exemple du type de clusters qu'il peut créer:
L'affiliation au cluster est enregistrée dans un fichier texte. Le code est open source sous licence MIT.
la source
Ce script Matlab génère des données 2D pour le clustering. Il accepte plusieurs paramètres afin que les données générées soient conformes aux exigences de l'utilisateur.
la source
Je ne peux pas croire que personne n'ait mentionné les données de Fisher's Iris.
Je ne pense pas avoir vu une technique de clustering qui n'utilise pas les données de l'iris comme exemple.
Dans r, tapez simplement "iris" pour accéder aux données.
Voici un exemple d'une belle (et typique) iris plot: http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/
la source