La deuxième question est que j'ai trouvé dans une discussion quelque part sur le Web parler de "clustering supervisé", pour autant que je sache, le clustering n'est pas supervisé, alors quelle est exactement la signification derrière "clustering supervisé"? Quelle est la différence en ce qui concerne la "classification"?
Il existe de nombreux liens qui en parlent:
http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf
http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf
http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf
http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf
http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf
http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf
http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf
etc ...
Réponses:
Ma compréhension naïve est que la classification est effectuée lorsque vous avez un ensemble spécifié de classes et que vous souhaitez classer une nouvelle chose / un nouvel ensemble de données dans l'une de ces classes spécifiées.
Alternativement, le clustering n'a rien pour commencer et vous utilisez toutes les données (y compris la nouvelle) pour vous séparer en clusters.
Les deux utilisent des mesures de distance pour décider comment regrouper / classer. La différence est que la classification est basée sur un ensemble de classes précédemment défini, tandis que le clustering décide des clusters en fonction de l'ensemble des données.
Encore une fois, ma compréhension naïve est que le clustering supervisé reste un cluster basé sur l'ensemble des données et serait donc un cluster plutôt qu'une classification.
En réalité, je suis sûr que la théorie derrière le clustering et la classification sont inter-jumelées.
la source
Je ne pense pas en savoir plus que vous, mais les liens que vous avez publiés suggèrent des réponses. Je prendrai http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf comme exemple. Fondamentalement, ils déclarent: 1) le regroupement dépend d'une distance. 2) une utilisation réussie des k-moyennes nécessite une distance soigneusement choisie. 3) Étant donné les données d'apprentissage sous la forme d'ensembles d'éléments avec le partitionnement souhaité, nous fournissons une méthode structurelle SVM qui apprend une mesure de distance afin que k-means produise les regroupements souhaités.Dans ce cas, il y a une étape supervisée de regroupement, avec à la fois des données de formation et d'apprentissage. Le but de cette étape est d'apprendre une fonction de distance afin que l'application du clustering k-means avec cette distance soit, espérons-le, optimale, en fonction de la ressemblance des données d'apprentissage avec le domaine d'application. Toutes les mises en garde habituelles appropriées à l'apprentissage automatique et au clustering s'appliquent toujours.
Citant plus loin de l'article: Le clustering supervisé est la tâche d'adapter automatiquement un algorithme de clustering à l'aide d'un ensemble de formation composé d'ensembles d'articles et de partitionnements complets de ces ensembles d'articles. . Cela semble une définition raisonnable.
la source
Quelques définitions:
Le clustering supervisé est appliqué sur des exemples classifiés dans le but d'identifier les clusters ayant une densité de probabilité élevée à une seule classe.
Le clustering non supervisé est un cadre d'apprentissage utilisant des fonctions d'objet spécifiques, par exemple une fonction qui minimise les distances à l'intérieur d'un cluster pour maintenir le cluster serré.
Le clustering semi-supervisé vise à améliorer un algorithme de clustering en utilisant des informations secondaires dans le processus de clustering.
Avancées dans les réseaux de neurones - ISNN 2010
Sans utiliser trop de jargon puisque je suis novice dans ce domaine, la façon dont je comprends le clustering supervisé est plus ou moins la suivante:
dans le clustering supervisé, vous partez du haut vers le basavec certaines classes prédéfinies, puis en utilisant un Bottom-Up approche que vous trouvez que les objets correspondent mieux dans vos classes.
Par exemple, vous avez effectué une étude concernant le type d'oranges préféré dans une population.
Parmi les nombreux types d'oranges, vous avez constaté qu'un «type» particulier d'oranges est le préféré.
Cependant, ce type d'orange est très délicat et labile aux infections, au changement climatique et à d'autres agents environnementaux.
Vous voulez donc le croiser avec d'autres espèces très résistantes à ces insultes.
Ensuite, vous allez au laboratoire et avez trouvé des gènes qui sont responsables du goût juteux et sucré d'un type et des capacités résistantes de l'autre type.
Vous effectuez plusieurs expériences et vous vous retrouvez avec disons cent sous-types d'oranges différents.
Maintenant, vous vous intéressez uniquement aux sous-types qui correspondent parfaitement aux propriétés décrites.
Vous ne voulez pas refaire la même étude dans votre population ...
Vous connaissez les propriétés que vous recherchez dans votre orange parfaite.
Vous exécutez donc votre analyse de cluster et sélectionnez celles qui correspondent le mieux à vos attentes.
la source