L’un des problèmes les plus importants de l’analyse par grappes est qu’il peut arriver que nous devions tirer des conclusions différentes lorsque nous nous basons sur différentes méthodes de classification utilisées (y compris différentes méthodes de couplage dans une classification hiérarchique).
J'aimerais connaître votre opinion à ce sujet - quelle méthode allez-vous choisir et comment. On pourrait dire "la meilleure méthode de classification est celle qui vous donne la bonne réponse"; mais je peux poser la question suivante: l’analyse par grappes est supposée être une technique non supervisée - alors, comment savoir quelle méthode ou quel lien est la bonne réponse?
En général: un cluster à lui seul est-il assez robuste pour pouvoir compter? Ou nous avons besoin d’une deuxième méthode et d’obtenir un résultat partagé fondé sur les deux?
Ma question ne concerne pas seulement les moyens possibles de valider / évaluer les performances du clustering, mais elle est plus large: sur quelle base choisissons-nous / préférons-nous une méthode / un algorithme de clustering par rapport à un autre? En outre, existe-t-il des avertissements courants que nous devrions examiner lorsque nous sélectionnons une méthode pour regrouper nos données?
Je sais que c'est une question très générale et très difficile à répondre. Je voudrais seulement savoir si vous avez des commentaires, des conseils ou des suggestions à me faire pour en savoir plus à ce sujet.
Réponses:
Souvent, ils disent qu’il n’existe pas d’autre technique analytique aussi puissante que celle du type "on sème", comme l’analyse par groupes.
Je peux imaginer un nombre de dimensions ou d’aspects de "justesse" de telle ou telle méthode de groupement :
Métaphore de cluster . "J'ai préféré cette méthode car elle constitue des clusters tels (ou une telle manière) qui correspondent à mon concept de cluster dans mon projet particulier" . Chaque algorithme ou sous-algorithme / méthode de classification implique sa structure / construction / forme correspondante d'un cluster. En ce qui concerne les méthodes hiérarchiques, j'ai observé cela dans l'un des points ici , et aussi ici. C'est-à-dire que certaines méthodes donnent aux grappes qui sont prototypiquement des "types", d'autres, aux "cercles [par intérêt]", aux autres "plateformes [politiques]", aux "classes", aux "chaînes", etc. Sélectionnez la méthode qui vous convient le mieux. Par exemple, si je considère mes segments de clientèle comme des types - des formes plus ou moins sphériques avec un ou des compactages au milieu, je choisirai clairement la méthode de couplage de Ward ou K-means, mais jamais la méthode de couplage simple. Si j’ai besoin d’un point focal représentatif, je pourrais utiliser la méthode médoïde. Si j’ai besoin de filtrer des points en tant que représentants centraux et périphériques, je pourrais utiliser l’approche DBSCAN.
Hypothèses relatives aux données / méthodes . "J'ai préféré cette méthode car la nature ou le format de mes données y prédispose" . Ce point important et important est également mentionné dans mon lien ci-dessus. Différents algorithmes / méthodes peuvent nécessiter différents types de données ou des mesures de proximité différentes doivent être appliquées aux données, et inversement, des données différentes peuvent nécessiter des méthodes différentes. Il existe des méthodes quantitatives et des méthodes qualitatives. Le mélange de caractéristiques quantitatives et qualitatives réduit considérablement le champ de choix des méthodes. Ward ou K-signifiereposent - explicitement ou implicitement - sur une mesure de distance de distance euclidienne (au carré) uniquement et non sur une mesure arbitraire. Les données binaires peuvent faire appel à des mesures spéciales de similarité qui, à leur tour, mettront fortement en doute l'utilisation de certaines méthodes, par exemple la méthode de Ward ou K-means. Le Big Data peut nécessiter des algorithmes spéciaux ou des implémentations spéciales.
Validité externe . "J'ai préféré cette méthode car elle m'a donné des grappes qui diffèrent par leur arrière-plan ou des grappes qui correspondent à celles que je connais" . Si une partition en cluster présente des caractéristiques clairement différentes sur certaines caractéristiques de base importantes (c’est-à-dire qu’elles n’ont pas participé à l’analyse par grappe), il s’agit d’un atout pour la méthode qui a généré la partition. Utilisez toute analyse qui s’applique pour vérifier la différence; il existe également un certain nombre de critères de regroupement externes utiles(Rand, F-mesure, etc etc). Une autre variante du cas de validation externe consiste à connaître les véritables clusters de vos données (connaître la "vérité sur le terrain"), par exemple lorsque vous avez généré les clusters vous-même. Ensuite, la mesure de la validité externe réside dans la précision avec laquelle votre méthode de clustering est capable de découvrir les clusters réels.
Cross-validité . "J'ai préféré cette méthode car elle me donne des grappes très similaires sur des échantillons équivalents des données ou bien les extrapole sur de tels échantillons" . Il existe différentes approches et leurs hybrides, certaines plus réalisables avec certaines méthodes de regroupement, d'autres avec d'autres méthodes. Les deux approches principales sont le contrôle de stabilité et la généralisabilitévérifier. En vérifiant la stabilité d’une méthode de regroupement, l’un divise ou ré-échantillonne de manière aléatoire les données en ensembles partiellement ou totalement disjoints et effectue le regroupement sur chacun d’eux; recherche ensuite les caractéristiques d'une grappe émergente (par exemple, l'emplacement de la tendance centrale d'une grappe) et les compare si elles sont stables entre les ensembles. Vérifier la généralisabilité implique de mettre en cluster une rame, puis d'utiliser sa caractéristique ou règle de cluster émergente pour assigner des objets à un ensemble de test, en plus de la mise en cluster sur l'ensemble de test. Les appartenances à la grappe des objets d'ensemble de tests sont ensuite comparées.
Interprétation . "J'ai préféré cette méthode parce qu'elle m'a donné des grappes qui, a-t-il expliqué, sont les plus convaincantes sur le fait qu'il existe une signification dans le monde" . Ce n'est pas statistique - c'est votre validation psychologique. Dans quelle mesure les résultats sont-ils significatifs pour vous, le domaine et éventuellement le public / client? Choisissez une méthode donnant les résultats les plus interprétables et épicés.
Grégarité . Certaines recherches régulièrement et toutes les recherches disaient parfois: "J'ai préféré cette méthode car elle donnait à mes données des résultats similaires à ceux de nombreuses autres méthodes parmi celles que j'ai sondées" . C'est une stratégie heuristique mais discutable qui suppose qu'il existe des données assez universelles ou une méthode assez universelle.
Les points 1 et 2 sont théoriques et précèdent l’obtention du résultat; En se fondant exclusivement sur ces points, on trouve la stratégie exploratoire hautaine et assurée. Les points 3, 4 et 5 sont empiriques et suivent le résultat; En s’appuyant exclusivement sur ces points, il s’agit d’une stratégie exploratoire agitée. Le point 6 est créatif, ce qui signifie qu'il nie tout résultat pour tenter de le modifier. Le point 7 est une mauvaise foi loyale.
Les points 3 à 7 peuvent également être des juges dans votre sélection du "meilleur" nombre de clusters .
la source
Il y a surtout des critères de drapeau rouge . Propriétés des données vous indiquant qu'une certaine approche échouera à coup sûr.
si vous n'avez aucune idée de ce que vos données moyens cesser de l' analyser. vous ne faites que deviner des animaux dans les nuages.
si les attributs varient en échelle et sont non linéaires ou asymétriques. cela peut ruiner votre analyse à moins que vous n’ayez une très bonne idée de la normalisation appropriée. Arrêtez-vous et apprenez à comprendre vos fonctionnalités, il est trop tôt pour regrouper.
si chaque attribut est équivalent (même échelle) et linéaire, et que vous souhaitez quantifier votre ensemble de données (et que l'erreur au moins carré a une signification pour vos données), alors k-means vaut la peine d'essayer. Si vos attributs sont de types et d'échelles différents, le résultat n'est pas bien défini. Contre-exemple: âge et revenu. Le revenu est très asymétrique, et
x years = y dollar
est un non-sens.si vous avez une idée très précise de la façon de quantifier la similarité ou la distance (de manière significative), ; la capacité de calculer un nombre ne suffit pas), la classification hiérarchique et DBSCAN constituent un bon choix. Si vous ne savez pas comment quantifier la similarité, résolvez-le d'abord.
Vous voyez que le problème le plus courant est que les gens essaient de vider leurs données brutes dans un cluster, quand ils ont d'abord besoin de les comprendre et de les normaliser, et de trouver une similarité.
Exemples:
Pixels d'une image dans un espace RVB. Les moindres carrés ont un sens et tous les attributs sont comparables - k-moyennes est un bon choix.
Données géographiques: les moindres carrés ne sont pas très appropriés. il y aura des valeurs aberrantes. mais la distance est très significative. Utilisez DBSCAN si vous avez beaucoup de bruit, ou HAC (clustering agglomératif hiérarchique) si vous avez des données très propres.
Espèces observées dans différents habitats. Les moindres carrés sont douteux, mais la similarité de Jaccard, par exemple, est significative. Vous n'avez probablement que peu d'observations et pas de "faux" habitats - utilisez HAC.
la source
stop criteria
. Comme vous le savez, "règles d’arrêt" ou "critères d’arrêt" est synonyme de "critères de classification interne" dans le domaine de la classification hiérarchique. Donc, c'est un terme préoccupé. Mais vous répondez à ces mots dans un sens différent dans la réponse, ce qui peut dérouter le lecteur.(non)linear attributes
. Que voulez-vous dire? De quelle manière un attribut "linéaire"? ou parlez-vous de relations linéaires , c'est-à-dire de formes ellipsoïdes (et non incurvées) de grappes?Je ne pense pas qu'il existe un bon moyen formel de le faire; Je pense que les bonnes solutions sont celles qui ont du sens, sur le fond.
Bien sûr, vous pouvez essayer de fractionner les données et de les regrouper plusieurs fois, par exemple, mais il reste la question de savoir laquelle est utile.
la source