En quoi trouver le centroïde est-il différent de trouver la moyenne?

26

Lors de la mise en cluster hiérarchique, on peut utiliser de nombreuses métriques pour mesurer la distance entre les clusters. Deux de ces mesures impliquent le calcul des centroïdes et des moyennes des points de données dans les grappes.

Quelle est la différence entre la moyenne et le centroïde? N'est-ce pas le même point dans le cluster?

John Hoffman
la source

Réponses:

38

Pour autant que je sache, la «moyenne» d'un cluster et le centroïde d'un cluster unique sont la même chose, bien que le terme «centroïde» soit un peu plus précis que «moyenne» lorsqu'il s'agit de données multivariées.

Pour trouver le centroïde, on calcule la moyenne (arithmétique) des positions des points séparément pour chaque dimension. Par exemple, si vous aviez des points sur:

  • (-1, 10, 3),
  • (0, 5, 2), et
  • (1, 20, 10),

alors le centroïde serait situé à ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3), ce qui simplifie (0, 11 2/3, 5). (NB: le centroïde ne doit pas être - et est rarement --- l'un des points de données d'origine)

Le centroïde est aussi parfois appelé centre de masse ou barycentre, en fonction de son interprétation physique (c'est le centre de masse d'un objet défini par les points). Comme la moyenne, l'emplacement du centroïde minimise la distance au carré des autres points.

Une idée connexe est le médoïde , qui est le point de données qui est "le moins différent" de tous les autres points de données. Contrairement au centroïde, le médoïde doit être l'un des points d'origine. Vous pouvez également être intéressé par la médiane géométrique qui est analogue à la médiane, mais pour les données multivariées. Ce sont tous deux différents du centroïde.

ABcentroid(A)centroid(B)aiAdist(ai,b1)dist(ai,b2)dist(ai,bn)

Matt Krause
la source
Dans quelles conditions le centroïde et le médoïde sont-ils identiques? Et aussi pourquoi le centroïde est un bon représentant d'un ensemble de points?
raikumardipak
@dkr, vous voudrez peut-être poser cette question comme une nouvelle question pour obtenir plus de réponses (et plus en profondeur). Cela dit, la différence se résume à deux choses: 1) la chose à minimiser (distance au carré / norme L2 pour le centroïde, distance absolue / norme L1 pour la période médiane) et 2) si la sortie peut être n'importe quel point (centroïde) ou doit être dans l'ensemble de données (mediod). Vous pouvez imaginer des cas où ils seront les mêmes, mais en général, ils ne le seront pas. Le centroïde est "bon" pour les mêmes raisons que la moyenne (la plus petite distance au carré des points) et présente également des inconvénients similaires (par exemple, il n'est pas robuste contre les valeurs aberrantes).
Matt Krause
4

La réponse ci-dessus peut être incorrecte voir cette vidéo: https://www.youtube.com/watch?v=VMyXc3SiEqs Il semble que la moyenne additionne toutes les combinaisons de distances entre les éléments du cluster 1 et du cluster 2 - c'est-à-dire n ^ 2 distances additionnées puis divisées par n ^ 2 à la moyenne.

La méthode Centroid calcule d'abord la moyenne de chaque cluster en elle-même. Ensuite, il calcule une distance entre ces points moyens.

Gabe
la source
1
Salut Gabe! Je pense que vous parlez de cette partie de la vidéo? Pour autant que je sache, le centroïde et la moyenne d'un seul cluster sont la même chose mais, comme vous l'avez souligné, la distance du centroïde et la distance moyenne entre deux clusters sont des mesures différentes. Je pensais que l'OP posait des questions sur le premier, mais je viens de modifier un peu le dernier aussi. Merci de l'avoir signalé (+1) et bienvenue dans Cross Validated!
Matt Krause
-1

le centroïde est la moyenne des points de données dans un cluster, le point centroïde n'a pas besoin d'être présent dans l'ensemble de données tandis que le médoïde est le point de données qui est plus proche du centroïde, le médoïde doit être présent dans les données d'origine

allié
la source