Que signifie ss total et entre ss dans le clustering k-means?

Je suis très nouveau dans l'analyse de cluster. J'utilise R pour le clustering k-means et je me demande quelles sont ces choses. Et quoi de mieux si leur ratio est plus petit ou plus grand?

clustering kanbhold
la source

Réponses:

C'est essentiellement une mesure de la qualité de la classification que k-means a trouvée. SS signifie évidemment Sum of Squares, c'est donc la décomposition habituelle de la déviance en déviance "Entre" et la déviance "En dedans". Idéalement, vous voulez un clustering qui a les propriétés de cohésion interne et de séparation externe, c'est-à-dire que le rapport BSS / TSS devrait approcher 1.

Par exemple, dans R:

data(iris)
km <- kmeans(iris[,1:4], 3)

donne un rapport BSS / TSS de 88,4% (0,884) indiquant un bon ajustement. Vous devez être prudent et c'est généralement une bonne idée de tracer le WSS par rapport au nombre de cluster, car ce nombre doit être spécifié à l'avance.

lambda_vu
la source