Comment choisir une méthode de clustering? Comment valider une solution de cluster (pour justifier le choix de la méthode)?

35

L’un des problèmes les plus importants de l’analyse par grappes est qu’il peut arriver que nous devions tirer des conclusions différentes lorsque nous nous basons sur différentes méthodes de classification utilisées (y compris différentes méthodes de couplage dans une classification hiérarchique).

J'aimerais connaître votre opinion à ce sujet - quelle méthode allez-vous choisir et comment. On pourrait dire "la meilleure méthode de classification est celle qui vous donne la bonne réponse"; mais je peux poser la question suivante: l’analyse par grappes est supposée être une technique non supervisée - alors, comment savoir quelle méthode ou quel lien est la bonne réponse?

En général: un cluster à lui seul est-il assez robuste pour pouvoir compter? Ou nous avons besoin d’une deuxième méthode et d’obtenir un résultat partagé fondé sur les deux?

Ma question ne concerne pas seulement les moyens possibles de valider / évaluer les performances du clustering, mais elle est plus large: sur quelle base choisissons-nous / préférons-nous une méthode / un algorithme de clustering par rapport à un autre? En outre, existe-t-il des avertissements courants que nous devrions examiner lorsque nous sélectionnons une méthode pour regrouper nos données?

Je sais que c'est une question très générale et très difficile à répondre. Je voudrais seulement savoir si vous avez des commentaires, des conseils ou des suggestions à me faire pour en savoir plus à ce sujet.

Apprenant
la source
Vérifiez également cette question similaire.
ttnphns
Et celui- ci.
ttnphns
2
Quelques liens spécifiquement sur la validation interne et externe: this . Et ça . Et ça . Et ça . Et ça . Et ça . Et là-bas . Et chercher plus.
jeudi

Réponses:

50

Souvent, ils disent qu’il n’existe pas d’autre technique analytique aussi puissante que celle du type "on sème", comme l’analyse par groupes.

Je peux imaginer un nombre de dimensions ou d’aspects de "justesse" de telle ou telle méthode de groupement :

  1. Métaphore de cluster . "J'ai préféré cette méthode car elle constitue des clusters tels (ou une telle manière) qui correspondent à mon concept de cluster dans mon projet particulier" . Chaque algorithme ou sous-algorithme / méthode de classification implique sa structure / construction / forme correspondante d'un cluster. En ce qui concerne les méthodes hiérarchiques, j'ai observé cela dans l'un des points ici , et aussi ici. C'est-à-dire que certaines méthodes donnent aux grappes qui sont prototypiquement des "types", d'autres, aux "cercles [par intérêt]", aux autres "plateformes [politiques]", aux "classes", aux "chaînes", etc. Sélectionnez la méthode qui vous convient le mieux. Par exemple, si je considère mes segments de clientèle comme des types - des formes plus ou moins sphériques avec un ou des compactages au milieu, je choisirai clairement la méthode de couplage de Ward ou K-means, mais jamais la méthode de couplage simple. Si j’ai besoin d’un point focal représentatif, je pourrais utiliser la méthode médoïde. Si j’ai besoin de filtrer des points en tant que représentants centraux et périphériques, je pourrais utiliser l’approche DBSCAN.

  2. Hypothèses relatives aux données / méthodes . "J'ai préféré cette méthode car la nature ou le format de mes données y prédispose" . Ce point important et important est également mentionné dans mon lien ci-dessus. Différents algorithmes / méthodes peuvent nécessiter différents types de données ou des mesures de proximité différentes doivent être appliquées aux données, et inversement, des données différentes peuvent nécessiter des méthodes différentes. Il existe des méthodes quantitatives et des méthodes qualitatives. Le mélange de caractéristiques quantitatives et qualitatives réduit considérablement le champ de choix des méthodes. Ward ou K-signifiereposent - explicitement ou implicitement - sur une mesure de distance de distance euclidienne (au carré) uniquement et non sur une mesure arbitraire. Les données binaires peuvent faire appel à des mesures spéciales de similarité qui, à leur tour, mettront fortement en doute l'utilisation de certaines méthodes, par exemple la méthode de Ward ou K-means. Le Big Data peut nécessiter des algorithmes spéciaux ou des implémentations spéciales.

  3. 1about), une validité élevée peut donc être en partie due à la particularité aléatoire de l’ensemble de données donné; avoir un jeu de données de test est toujours bénéfique.]

  4. Validité externe . "J'ai préféré cette méthode car elle m'a donné des grappes qui diffèrent par leur arrière-plan ou des grappes qui correspondent à celles que je connais" . Si une partition en cluster présente des caractéristiques clairement différentes sur certaines caractéristiques de base importantes (c’est-à-dire qu’elles n’ont pas participé à l’analyse par grappe), il s’agit d’un atout pour la méthode qui a généré la partition. Utilisez toute analyse qui s’applique pour vérifier la différence; il existe également un certain nombre de critères de regroupement externes utiles(Rand, F-mesure, etc etc). Une autre variante du cas de validation externe consiste à connaître les véritables clusters de vos données (connaître la "vérité sur le terrain"), par exemple lorsque vous avez généré les clusters vous-même. Ensuite, la mesure de la validité externe réside dans la précision avec laquelle votre méthode de clustering est capable de découvrir les clusters réels.

  5. Cross-validité . "J'ai préféré cette méthode car elle me donne des grappes très similaires sur des échantillons équivalents des données ou bien les extrapole sur de tels échantillons" . Il existe différentes approches et leurs hybrides, certaines plus réalisables avec certaines méthodes de regroupement, d'autres avec d'autres méthodes. Les deux approches principales sont le contrôle de stabilité et la généralisabilitévérifier. En vérifiant la stabilité d’une méthode de regroupement, l’un divise ou ré-échantillonne de manière aléatoire les données en ensembles partiellement ou totalement disjoints et effectue le regroupement sur chacun d’eux; recherche ensuite les caractéristiques d'une grappe émergente (par exemple, l'emplacement de la tendance centrale d'une grappe) et les compare si elles sont stables entre les ensembles. Vérifier la généralisabilité implique de mettre en cluster une rame, puis d'utiliser sa caractéristique ou règle de cluster émergente pour assigner des objets à un ensemble de test, en plus de la mise en cluster sur l'ensemble de test. Les appartenances à la grappe des objets d'ensemble de tests sont ensuite comparées.

  6. Interprétation . "J'ai préféré cette méthode parce qu'elle m'a donné des grappes qui, a-t-il expliqué, sont les plus convaincantes sur le fait qu'il existe une signification dans le monde" . Ce n'est pas statistique - c'est votre validation psychologique. Dans quelle mesure les résultats sont-ils significatifs pour vous, le domaine et éventuellement le public / client? Choisissez une méthode donnant les résultats les plus interprétables et épicés.

  7. Grégarité . Certaines recherches régulièrement et toutes les recherches disaient parfois: "J'ai préféré cette méthode car elle donnait à mes données des résultats similaires à ceux de nombreuses autres méthodes parmi celles que j'ai sondées" . C'est une stratégie heuristique mais discutable qui suppose qu'il existe des données assez universelles ou une méthode assez universelle.

Les points 1 et 2 sont théoriques et précèdent l’obtention du résultat; En se fondant exclusivement sur ces points, on trouve la stratégie exploratoire hautaine et assurée. Les points 3, 4 et 5 sont empiriques et suivent le résultat; En s’appuyant exclusivement sur ces points, il s’agit d’une stratégie exploratoire agitée. Le point 6 est créatif, ce qui signifie qu'il nie tout résultat pour tenter de le modifier. Le point 7 est une mauvaise foi loyale.

Les points 3 à 7 peuvent également être des juges dans votre sélection du "meilleur" nombre de clusters .


1

tnphns
la source
1
J'aime beaucoup les mesures de validité interne, comme la somme des variances intra-grappe dans les grappes hiérarchiques K-moyennes et Ward, ainsi que les indices de Dunn. Ils sont indépendants des données et parfois même indépendants de l'algorithme de classification, même si certains n'ont de sens qu'avec des algorithmes spécifiques.
Douglas De Rizzo Meneghetti
2
@ DouglasDeRizzoMeneghetti Je ne suis pas d'accord. Ils ne sont ni indépendants des données (ils reposent sur des hypothèses très strictes, telles que la linéarité et l'équivalence des attributs) ni indépendants de l'algorithme de classification. En fait, chaque mesure interne est un algorithme de clustering qui lui est propre (vous pouvez l’optimiser pour cette fonction - elle est généralement trop coûteuse à réaliser).
Anony-Mousse
1
Je comprends que certaines mesures de validité interne, telles que la somme des variances intra-grappe, donnent de meilleurs résultats si les appartenances à une grappe ont été acquises via une méthode de grappe qui tend à minimiser la somme des variances intra-grappe, et qu'une mesure de validité comme la méthode de Dunn les index supposent que les bonnes grappes sont compactes et éloignées (même si les interprétations de "compact" et "éloignées" sont laissées ouvertes), mais le fait que vous puissiez calculer ces mesures avec uniquement les valeurs de caractéristique et les appartenances de grappe du les éléments les rendent assez polyvalents.
Douglas De Rizzo Meneghetti
9

Il y a surtout des critères de drapeau rouge . Propriétés des données vous indiquant qu'une certaine approche échouera à coup sûr.

  1. si vous n'avez aucune idée de ce que vos données moyens cesser de l' analyser. vous ne faites que deviner des animaux dans les nuages.

  2. si les attributs varient en échelle et sont non linéaires ou asymétriques. cela peut ruiner votre analyse à moins que vous n’ayez une très bonne idée de la normalisation appropriée. Arrêtez-vous et apprenez à comprendre vos fonctionnalités, il est trop tôt pour regrouper.

  3. si chaque attribut est équivalent (même échelle) et linéaire, et que vous souhaitez quantifier votre ensemble de données (et que l'erreur au moins carré a une signification pour vos données), alors k-means vaut la peine d'essayer. Si vos attributs sont de types et d'échelles différents, le résultat n'est pas bien défini. Contre-exemple: âge et revenu. Le revenu est très asymétrique, etx years = y dollar est un non-sens.

  4. si vous avez une idée très précise de la façon de quantifier la similarité ou la distance (de manière significative), ; la capacité de calculer un nombre ne suffit pas), la classification hiérarchique et DBSCAN constituent un bon choix. Si vous ne savez pas comment quantifier la similarité, résolvez-le d'abord.

Vous voyez que le problème le plus courant est que les gens essaient de vider leurs données brutes dans un cluster, quand ils ont d'abord besoin de les comprendre et de les normaliser, et de trouver une similarité.

Exemples:

  1. Pixels d'une image dans un espace RVB. Les moindres carrés ont un sens et tous les attributs sont comparables - k-moyennes est un bon choix.

  2. Données géographiques: les moindres carrés ne sont pas très appropriés. il y aura des valeurs aberrantes. mais la distance est très significative. Utilisez DBSCAN si vous avez beaucoup de bruit, ou HAC (clustering agglomératif hiérarchique) si vous avez des données très propres.

  3. Espèces observées dans différents habitats. Les moindres carrés sont douteux, mais la similarité de Jaccard, par exemple, est significative. Vous n'avez probablement que peu d'observations et pas de "faux" habitats - utilisez HAC.

Anony-Mousse
la source
+1 Je vous prie seulement de trouver une autre expression à la place de stop criteria. Comme vous le savez, "règles d’arrêt" ou "critères d’arrêt" est synonyme de "critères de classification interne" dans le domaine de la classification hiérarchique. Donc, c'est un terme préoccupé. Mais vous répondez à ces mots dans un sens différent dans la réponse, ce qui peut dérouter le lecteur.
dimanche
1
Qu'en est-il des "critères du drapeau rouge"? Seuil d'arrêt pour HAC, je vois votre point.
Anony-Mousse
Parfait pour moi, bon choix.
ttnphns
En pts 2,3, dites-vous (non)linear attributes. Que voulez-vous dire? De quelle manière un attribut "linéaire"? ou parlez-vous de relations linéaires , c'est-à-dire de formes ellipsoïdes (et non incurvées) de grappes?
ttnphns
Données avec par exemple une distribution exponentielle.
Anony-Mousse
3

Je ne pense pas qu'il existe un bon moyen formel de le faire; Je pense que les bonnes solutions sont celles qui ont du sens, sur le fond.

Bien sûr, vous pouvez essayer de fractionner les données et de les regrouper plusieurs fois, par exemple, mais il reste la question de savoir laquelle est utile.

Peter Flom - Rétablir Monica
la source
2
Je pense que le terme sens n'a pas assez de poids. C’est également l’essentiel de ma réponse: vous devez d’abord donner un sens à vos données.
Anony-Mousse
@ Anony-Mousse, c'est un excès de votre part. Je parie que les personnes qui ne savent pas comment ou oublient de "donner un sens" à leurs données visitent à peine ce site et ne posent pas des questions aussi valables que celle posée ici.
dimanche
@ttnphns Je ne sais pas à quelle fréquence de telles personnes visitent ce site et elles ne posent certainement pas de telles questions. Mais beaucoup de gens s’attendent à ce que l’analyse par grappes fonctionne comme une fonction Excel. Sélectionnez les données, cliquez sur "cluster" et sortez les segments de clientèle magiques. Ce qui ne semble jamais fonctionner beaucoup mieux que le hasard. Et par exemple, cet utilisateur n'a pas compris ses données: stats.stackexchange.com/q/195521/7828
Anony-Mousse