k-means || alias K-Means évolutif ++

Bahman Bahmani et al. a introduit k-means ||, qui est une version plus rapide de k-means ++.

Initialisation des k-moyennes ||

Cet algorithme est tiré de la page 4 de leur article , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., et Vassilvitskii, S. (2012). K-means évolutif ++. Actes de la dotation VLDB , 5 (7), 622-633.

Malheureusement, je ne comprends pas ces lettres grecques fantaisistes, j'ai donc besoin d'aide pour comprendre comment cela fonctionne. Autant que je sache, cet algorithme est une version améliorée de k-means ++, et il utilise un suréchantillonnage, pour réduire le nombre d'itérations: k-means ++ doit itérer fois, où est le nombre de clusters souhaités. $k$ $k$

J'ai obtenu une très bonne explication grâce à un exemple concret du fonctionnement de k-means ++, je vais donc réutiliser le même exemple.

Exemple

J'ai le jeu de données suivant:

(7,1), (3,4), (1,5), (5,8), (1,3), (7,8), (8,2), (5,9), (8 , 0)

(nombre de grappes souhaitées) $k = 3$

(facteur de suréchantillonnage) $\ell = 2$

Exemple d'ensemble de données pour k-means ||

J'ai commencé à le calculer, mais je ne sais pas si je l'ai bien fait, et je n'ai aucune idée des étapes 2, 4 ou 5.

Étape 1: échantillonner un point uniformément au hasard à partir de $\mathcal{C} \leftarrow$ $X$

Disons que le premier centroïde est (identique à k-means ++) $(8,0)$
Étape 2: $\psi \leftarrow \phi_X(\mathcal{C})$

aucune idée
Étape 3:
- $d^2(x, \mathcal{C}) = [2, 41, 74, 73, 58, 65, 4, 90]$
  
  Nous calculons les distances au carré du centre le plus proche de chaque point. Dans ce cas, nous n'avons pour l'instant qu'un seul centre . $(8,0)$
- $\ell \cdot d^2(x, \mathcal{C}) = [4, 81, 148, 146, 116, 130, 8, 180]$
  
  (Parce que dans ce cas.) $\ell = 2$
- $\text{cumulative } \ell \cdot d^2(x, \mathcal{C}) = [4, 85, 233, 379, 495, 625, 633, 813]$
  
  Choisissez nombres aléatoires dans l'intervalle . Disons que vous choisissez et . Ils se situent dans les fourchettes et qui correspondent respectivement aux 4e et 8e éléments. $\ell = 2$ $[0, 813)$ $246.90$ $659.42$ $[379, 495)$ $[633, 813)$
- Répétez-le fois, mais qu'est-ce que (calculé à l'étape 2) dans ce cas? $\mathcal{O}(\log \psi)$ $\psi$
Etape 4: Pour , ensemble étant le nombre de points en plus proche de que de tout autre point dans . $x \in \mathcal{C}$ $w_x$ $X$ $x$ $\mathcal{C}$
Étape 5: Re-regrouper les points pondérés en en grappes. $\mathcal{C}$ $k$

Toute aide en général ou dans cet exemple particulier serait formidable.

clustering k-means user1930254
la source

points de données: (7,1), (3,4), (1,5), (5,8), (1,3), (7,8), (8,2), (5,9) , (8,0)

l = 2 // facteur de suréchantillonnage

k = 3 // non. des clusters souhaités

Étape 1:

$\mathcal{C}$ $\{ c_1\} = \{ (8,0) \}$ $X = \{x_1,x_2,x_3,x_4,x_5,x_6,x_7,x_8\}=\{(7,1),(3,4),(1,5),(5,8),(1,3),(7,8),(8,2),(5,9)\}$

Étape 2:

$\phi_X(\mathcal{C})$ $X$ $\mathcal{C}$ $X$ $\mathcal{C}$ $X$

$d^2_{\mathcal{C}}(x_i)$ $x_i$ $\mathcal{C}$ $\psi = \sum_{i=1}^{n}d^2_{\mathcal{C}}(x_i)$

$\mathcal{C}$ $X$ $d^2_{\mathcal{C}}(x_i)$ $\mathcal{C}$ $x_i$ $\phi = \sum_{i=1}^{n}{||x_i-c||^2}$

$\psi = \sum_{i=1}^nd^2(x_i,c_1) = 1.41+6.4+8.6+8.54+7.61+8.06+2+9.4 = 52.128$ $log(\psi) = log(52.128) = 3.95 = 4 (rounded)$

$\mathcal{C}$

Étape 3:

$log(\psi)$

$X$ $X$ $x_i$ $p_x = l d^2(x,\mathcal{C})/\phi_X(\mathcal{C})$ $l$ $d^2(x,\mathcal{C})$ $\phi_X(\mathcal{C})$ est expliqué à l'étape 2.

L'algorithme est simplement:

$X$ $x_i$
$x_i$ $p_{x_i}$
$[0, 1]$ $p_{x_i}$ $\mathcal{C'}$
$\mathcal{C'}$ $\mathcal{C}$

$l$ $X$

for(int i=0; i<4; i++) {

  // compute d2 for each x_i
  int[] psi = new int[X.size()];
  for(int i=0; i<X.size(); i++) {
    double min = Double.POSITIVE_INFINITY;
    for(int j=0; j<C.size(); j++) {
      if(min>d2(x[i],c[j])) min = norm2(x[i],c[j]);
    }
    psi[i]=min;
  }

  // compute psi
  double phi_c = 0;
  for(int i=0; i<X.size(); i++) phi_c += psi[i];

  // do the drawings
  for(int i=0; i<X.size(); i++) {
    double p_x = l*psi[i]/phi;
    if(p_x >= Random.nextDouble()) {
      C.add(x[i]);
      X.remove(x[i]);
    }
  }
}
// in the end we have C with all centroid candidates
return C;

Étape 4:

$w$ $\mathcal{C}$ $0$ $X$ $x_i \in X$ $j$ $\mathcal{C}$ $w[j]$ $1$ $w$

double[] w = new double[C.size()]; // by default all are zero
for(int i=0; i<X.size(); i++) {
  double min = norm2(X[i], C[0]);
  double index = 0;
  for(int j=1; j<C.size(); j++) {
    if(min>norm2(X[i],C[j])) {
      min = norm2(X[i],C[j]);
      index = j;
    }
  }
  // we found the minimum index, so we increment corresp. weight
  w[index]++;
}

Étape 5:

$w$ $k$ $k$ $p(i) = w(i)/\sum_{j=1}^m{w_j}$

for(int k=0; k<K; k++) {
  // select one centroid from candidates, randomly, 
  // weighted by w
  // see kmeans++ and you first idea (which is wrong for step 3)
  ... 
}

Toutes les étapes précédentes se poursuivent, comme dans le cas de kmeans ++, avec le flux normal de l'algorithme de clustering

J'espère que c'est plus clair maintenant.

[Plus tard, plus tard modifier]

J'ai également trouvé une présentation faite par des auteurs, où vous ne pouvez pas clairement indiquer qu'à chaque itération, plusieurs points peuvent être sélectionnés. La présentation est ici .

[Édition ultérieure du numéro de @ pera]

$log(\psi)$

$C$ $log(\psi)$

Une autre chose à noter est la note suivante sur la même page qui dit:

En pratique, nos résultats expérimentaux dans la section 5 montrent que seuls quelques tours sont suffisants pour parvenir à une bonne solution.

$log(\psi)$

rapaio
la source

pourriez-vous s'il vous plaît étendre votre réponse avec le calcul de mon exemple?

user1930254

Je suis programmeur, je pense que je peux l'écrire en code plus rapidement qu'en tapant ici :). J'espère que cela explique l'algo.

rapaio

Pouvez-vous expliquer quelle est l'idée avec le nombre d'itérations log (Ksi)? Je ne comprends pas l'idée en dessous, il semble que le nombre d'itérations dépendra de la plage de valeurs des objets, ce qui ne semble pas raisonnable. Par exemple, si les objets ont des valeurs d'attribut d'environ 1000, cela pourrait, par exemple, entraîner une erreur d'environ 1000, ce qui signifie qu'il y aura 3 itérations. D'un autre côté, si les valeurs sont dans la plage de 10, cela pourrait entraîner que l'erreur soit d'environ 10, ce qui entraîne 1 itération. Le nombre d'itérations ne devrait-il pas dépendre du nombre d'objets?

Marko

@pera Je mets à jour la réponse pour clarifier le problème que vous avez soulevé

rapaio

@rapaio Merci pour votre réponse, je vais déjà pour la solution qui déterminera le nombre d'itérations en fonction du nombre de médoïdes. Où x peut être augmenté pour obtenir une meilleure initialisation au prix de quelques itérations de plus. Êtes-vous d'accord, d'accord, d'après la deuxième partie que vous avez donnée? Merci encore.

Marko

k-means || alias K-Means évolutif ++

Réponses: