Clustering ou classification supervisée?

22

La deuxième question est que j'ai trouvé dans une discussion quelque part sur le Web parler de "clustering supervisé", pour autant que je sache, le clustering n'est pas supervisé, alors quelle est exactement la signification derrière "clustering supervisé"? Quelle est la différence en ce qui concerne la "classification"?

Il existe de nombreux liens qui en parlent:

http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf

http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf

http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf

http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf

http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf

http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf

http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf

etc ...

shn
la source
veuillez donner le lien "discussion quelque part sur le web"
Atilla Ozgur
1
"Clustering" est synonyme de "classification non supervisée", donc, "clustering supervisé" est un oxymore. On pourrait cependant soutenir que les cartes auto-organisatrices sont une technique supervisée utilisée pour une classification non supervisée, ce qui serait la chose la plus proche du "clustering supervisé".
Digio
Pour autant que je l'ai compris, c'est "Nous utilisons le clustering pour organiser les données afin de les préparer pour un traitement ultérieur ou au moins pour les préparer pour une analyse plus approfondie". C et ainsi de suite ... Alors maintenant, ces données sont supervisées d'une certaine manière. Maintenant, cela dépend de l'exigence de ce que vous voulez faire avec ces données ou de la façon dont ces données peuvent vous être utiles que ce soit pour les opérations de classification ou de régression. Corrigez-moi si je me trompe.
sak

Réponses:

2

Ma compréhension naïve est que la classification est effectuée lorsque vous avez un ensemble spécifié de classes et que vous souhaitez classer une nouvelle chose / un nouvel ensemble de données dans l'une de ces classes spécifiées.

Alternativement, le clustering n'a rien pour commencer et vous utilisez toutes les données (y compris la nouvelle) pour vous séparer en clusters.

Les deux utilisent des mesures de distance pour décider comment regrouper / classer. La différence est que la classification est basée sur un ensemble de classes précédemment défini, tandis que le clustering décide des clusters en fonction de l'ensemble des données.

Encore une fois, ma compréhension naïve est que le clustering supervisé reste un cluster basé sur l'ensemble des données et serait donc un cluster plutôt qu'une classification.

En réalité, je suis sûr que la théorie derrière le clustering et la classification sont inter-jumelées.

adunaic
la source
Je suis humblement en désaccord. Vous dites que la «classification» est par définition et par défaut un processus supervisé, ce qui n'est pas vrai. La classification est divisée en cas supervisés et non supervisés, ces derniers étant synonymes de regroupement.
Digio
15

Je ne pense pas en savoir plus que vous, mais les liens que vous avez publiés suggèrent des réponses. Je prendrai http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf comme exemple. Fondamentalement, ils déclarent: 1) le regroupement dépend d'une distance. 2) une utilisation réussie des k-moyennes nécessite une distance soigneusement choisie. 3) Étant donné les données d'apprentissage sous la forme d'ensembles d'éléments avec le partitionnement souhaité, nous fournissons une méthode structurelle SVM qui apprend une mesure de distance afin que k-means produise les regroupements souhaités.Dans ce cas, il y a une étape supervisée de regroupement, avec à la fois des données de formation et d'apprentissage. Le but de cette étape est d'apprendre une fonction de distance afin que l'application du clustering k-means avec cette distance soit, espérons-le, optimale, en fonction de la ressemblance des données d'apprentissage avec le domaine d'application. Toutes les mises en garde habituelles appropriées à l'apprentissage automatique et au clustering s'appliquent toujours.

Citant plus loin de l'article: Le clustering supervisé est la tâche d'adapter automatiquement un algorithme de clustering à l'aide d'un ensemble de formation composé d'ensembles d'articles et de partitionnements complets de ces ensembles d'articles. . Cela semble une définition raisonnable.

micans
la source
Le problème est simplement: pourquoi voulez-vous apprendre une mesure de distance à partir d'un ensemble de données d'entraînement étiquetées, puis appliquer cette mesure de distance avec une méthode de clustering; pourquoi ne pas simplement utiliser une méthode supervisée. En d'autres termes, vous souhaitez effectuer un clustering (c'est-à-dire partitionner votre ensemble de données en clusters), mais vous supposez que vous avez déjà le partitionnement souhaité complet et que vous l'utiliserez pour apprendre une mesure de distance, puis appliquer un clustering sur cet ensemble de données en utilisant cet apprentissage distance. Au mieux, vous obtiendrez les mêmes partitions que vous avez utilisées pour apprendre la mesure de distance! Vous avez déjà
shn
Où vous écrivez "puis appliquez un clustering sur cette base de données" substituez "puis appliquez un clustering sur des ensembles de données similaires". C'est ce scénario: dans l'expérience X, nous avons les données A et B. A est pour le clustering, B aide à apprendre la distance. B établit un étalon-or et est probablement cher à obtenir. Dans les expériences suivantes X2, X3 .. nous obtenons A mais nous ne pouvons pas nous permettre d'obtenir B.
micans
Ok, maintenant quand vous dites "apprendre une distance" à partir d'un ensemble de données B: voulez-vous dire "apprendre une certaine valeur de seuil de distance" ou "apprendre une fonction métrique de distance" (une sorte de mesure de dissimilarité paramétrée)?
shn
1
Je veux dire le deuxième, "apprendre une fonction métrique à distance". Après avoir lu plus loin en passant, ma formulation simple A et B ci-dessus peut être trouvée dans le manuscrit cité: "Étant donné des exemples de formation d'ensembles d'articles avec leurs regroupements corrects, le but est d'apprendre une mesure de similitude afin que les futurs ensembles d'éléments soient regroupés d'une manière similaire."
micans
1
Eh bien, il semble donc que le "clustering supervisé" soit très similaire à ce qu'on appelle le "clustering semi-supervisé". Jusqu'à présent, je ne vois pas vraiment de différence. Soit dit en passant, dans certains autres articles, le «regroupement (semi-) supervisé» ne fait pas référence à la «création d'une fonction de distance modifiée» à utiliser pour regrouper les futurs ensembles de données d'une manière similaire; il s'agit plutôt de "modifier l'algorithme de clustering lui-même" sans changer la fonction de distance!
shn
3

Quelques définitions:

Le clustering supervisé est appliqué sur des exemples classifiés dans le but d'identifier les clusters ayant une densité de probabilité élevée à une seule classe.

Le clustering non supervisé est un cadre d'apprentissage utilisant des fonctions d'objet spécifiques, par exemple une fonction qui minimise les distances à l'intérieur d'un cluster pour maintenir le cluster serré.

Le clustering semi-supervisé vise à améliorer un algorithme de clustering en utilisant des informations secondaires dans le processus de clustering.

Avancées dans les réseaux de neurones - ISNN 2010

Sans utiliser trop de jargon puisque je suis novice dans ce domaine, la façon dont je comprends le clustering supervisé est plus ou moins la suivante:

dans le clustering supervisé, vous partez du haut vers le basavec certaines classes prédéfinies, puis en utilisant un Bottom-Up approche que vous trouvez que les objets correspondent mieux dans vos classes.

Par exemple, vous avez effectué une étude concernant le type d'oranges préféré dans une population.
Parmi les nombreux types d'oranges, vous avez constaté qu'un «type» particulier d'oranges est le préféré.
Cependant, ce type d'orange est très délicat et labile aux infections, au changement climatique et à d'autres agents environnementaux.
Vous voulez donc le croiser avec d'autres espèces très résistantes à ces insultes.
Ensuite, vous allez au laboratoire et avez trouvé des gènes qui sont responsables du goût juteux et sucré d'un type et des capacités résistantes de l'autre type.
Vous effectuez plusieurs expériences et vous vous retrouvez avec disons cent sous-types d'oranges différents.
Maintenant, vous vous intéressez uniquement aux sous-types qui correspondent parfaitement aux propriétés décrites.
Vous ne voulez pas refaire la même étude dans votre population ...
Vous connaissez les propriétés que vous recherchez dans votre orange parfaite.
Vous exécutez donc votre analyse de cluster et sélectionnez celles qui correspondent le mieux à vos attentes.

Diego
la source