Existe-t-il un moyen de déterminer quelles caractéristiques / variables de l'ensemble de données sont les plus importantes / dominantes dans une solution de cluster k-means?
machine-learning
clustering
k-means
importance
user1624577
la source
la source
Réponses:
Une façon de quantifier l'utilité de chaque caractéristique (= variable = dimension), tirée du livre Burns, Robert P. et Richard Burns. Méthodes de recherche commerciale et statistiques utilisant SPSS. Sage, 2008. ( miroir ), l'utilité étant définie par le pouvoir discriminant des caractéristiques pour distinguer les grappes.
Une autre façon serait de supprimer une fonctionnalité spécifique et de voir comment cela affecte les indices de qualité internes . Contrairement à la première solution, vous devrez refaire le clustering pour chaque fonctionnalité (ou ensemble de fonctionnalités) que vous souhaitez analyser.
Pour info:
la source
Je peux penser à deux autres possibilités qui se concentrent davantage sur les variables importantes pour quels clusters.
Classification multi-classes. Considérez les objets qui appartiennent aux membres du cluster x de la même classe (par exemple, la classe 1) et les objets qui appartiennent aux autres membres du cluster d'une deuxième classe (par exemple, la classe 2). Former un classificateur pour prédire l'appartenance à une classe (par exemple, classe 1 vs classe 2). Les coefficients variables du classifieur peuvent servir à estimer l'importance de chaque variable dans le regroupement d'objets pour regrouper x . Répétez cette approche pour tous les autres clusters.
Similitude de variable intra-cluster. Pour chaque variable, calculez la similitude moyenne de chaque objet avec son centre de gravité. Une variable qui a une forte similitude entre un centroïde et ses objets est probablement plus importante pour le processus de clustering qu'une variable qui a une faible similitude. Bien sûr, la magnitude de similitude est relative, mais maintenant les variables peuvent être classées selon le degré auquel elles aident à regrouper les objets dans chaque cluster.
la source
Voici une méthode très simple. Notez que la distance euclidienne entre deux centres de cluster est une somme de la différence carrée entre les caractéristiques individuelles. Nous pouvons alors simplement utiliser la différence carrée comme poids pour chaque caractéristique.
la source