Je suis très nouveau dans l'analyse de cluster. J'utilise R pour le clustering k-means et je me demande quelles sont ces choses. Et quoi de mieux si leur ratio est plus petit ou plus grand?
la source
Je suis très nouveau dans l'analyse de cluster. J'utilise R pour le clustering k-means et je me demande quelles sont ces choses. Et quoi de mieux si leur ratio est plus petit ou plus grand?
C'est essentiellement une mesure de la qualité de la classification que k-means a trouvée. SS signifie évidemment Sum of Squares, c'est donc la décomposition habituelle de la déviance en déviance "Entre" et la déviance "En dedans". Idéalement, vous voulez un clustering qui a les propriétés de cohésion interne et de séparation externe, c'est-à-dire que le rapport BSS / TSS devrait approcher 1.
Par exemple, dans R:
data(iris)
km <- kmeans(iris[,1:4], 3)
donne un rapport BSS / TSS de 88,4% (0,884) indiquant un bon ajustement. Vous devez être prudent et c'est généralement une bonne idée de tracer le WSS par rapport au nombre de cluster, car ce nombre doit être spécifié à l'avance.