Les données du monde réel ont parfois un nombre naturel de clusters (essayer de les regrouper en un nombre de clusters inférieur à certains k magiques entraînera une augmentation spectaculaire du coût de clustering). Aujourd'hui, j'ai assisté à une conférence du Dr Adam Meyerson et il a qualifié ce type de données de "données séparables".
Quelles sont les formalisations de clustering, autres que K-means, qui pourraient se prêter à des algorithmes de clustering (approximations ou heuristiques) qui exploiteraient la séparabilité naturelle des données?
la source