J'utilise R pour faire du clustering K-means. J'utilise 14 variables pour exécuter K-means
- Quelle est une jolie façon de tracer les résultats de K-means?
- Y a-t-il des implémentations existantes?
- Avoir 14 variables complique-t-il la représentation graphique des résultats?
J'ai trouvé quelque chose appelé GGcluster qui a l'air cool mais qui est encore en développement. J'ai aussi lu quelque chose sur la cartographie sammon, mais je ne l'ai pas très bien comprise. Serait-ce une bonne option?
Réponses:
Je pousserais le diagramme de silhouette pour cela, car il est peu probable que vous obteniez beaucoup d'informations exploitables à partir des diagrammes de paires lorsque le nombre de dimension est 14.
Cette approche est très citée et bien connue (voir ici pour une explication).
Rousseeuw, PJ (1987) Silhouettes: Une aide graphique à l'interprétation et à la validation de l'analyse par grappes . J. Comput. Appl. Math. , 20 , 53-65.
la source
Voici un exemple qui peut vous aider:
Sur la base de ce dernier graphique, vous pouvez choisir les variables initiales à tracer. Peut-être que 14 variables sont énormes. Vous pouvez donc essayer une analyse en composantes principales avant d’utiliser les deux ou trois premières composantes de la PCA pour effectuer l’analyse par grappes.
la source
pairs
fonction.Le moyen le plus simple que je connaisse est le suivant:
De cette façon, vous pouvez dessiner les points de chaque groupe en utilisant une couleur différente et leurs centroïdes.
la source