J'essaie de comprendre les méthodes de clustering.
Ce que je pense avoir compris:
Dans l'apprentissage supervisé, les catégories / étiquettes de données auxquelles sont affectées sont connues avant le calcul. Ainsi, les étiquettes, classes ou catégories sont utilisées afin «d'apprendre» les paramètres qui sont vraiment importants pour ces clusters.
Dans l'apprentissage non supervisé, les ensembles de données sont affectés à des segments, sans que les clusters soient connus.
Est-ce à dire que si je ne sais même pas quels paramètres sont cruciaux pour une segmentation, je devrais préférer un apprentissage supervisé?
Réponses:
La différence est que dans l'apprentissage supervisé, les "catégories", "classes" ou "labels" sont connus. Dans l'apprentissage non supervisé, ils ne le sont pas, et le processus d'apprentissage tente de trouver des «catégories» appropriées. Dans les deux types d'apprentissage, tous les paramètres sont pris en compte pour déterminer ceux qui conviennent le mieux pour effectuer la classification.
Que vous choisissiez supervisé ou non supervisé doit être basé sur si vous savez ou non quelles sont les "catégories" de vos données. Si vous le savez, utilisez l'apprentissage supervisé. Si vous ne le savez pas, utilisez sans surveillance.
Comme vous disposez d'un grand nombre de paramètres et que vous ne savez pas lesquels sont pertinents, vous pouvez utiliser quelque chose comme l' analyse des composants principaux pour aider à déterminer ceux qui sont pertinents.
la source
Notez qu'il y a plus de 2 degrés de supervision. Par exemple, voir les pages 24-25 (6-7) dans la thèse de doctorat de Christian Biemann, Traitement du langage naturel non supervisé et sans connaissances dans le Structure Discovery Paradigm, 2007.
La thèse identifie 4 degrés: supervisé, semi-supervisé, faiblement supervisé et non supervisé, et explique les différences, dans un contexte de traitement du langage naturel. Voici les définitions pertinentes:
la source
Dans l'apprentissage supervisé, les classes sont connues à l'avance ainsi que leurs types, par exemple, deux classes de bons et de mauvais clients. Lorsqu'un nouvel objet (client) arrive sur la base de ses attributs, le client peut être affecté à une classe de clients mauvais ou bon.
Dans un apprentissage non supervisé, les groupes / classes ne sont pas déjà connus, nous avons des objets (clients), alors regroupez les clients ayant des habitudes d'achat similaires, donc différents groupes sont constitués des clients, c'est-à-dire pas déjà connus sur la base d'habitudes d'achat similaires.
la source
Dans l'apprentissage supervisé, la sortie (variable dépendante) dépend de la variable d'entrée (variable indépendante). Dans un ensemble de supervisions données, le répondant essaie de calculer l'objectif souhaité.
Dans l'apprentissage non supervisé, il n'y a pas de supervision, le système essaie de s'adapter à la situation et apprend manuellement en fonction d'une certaine mesure.
Ex.: Enseignant en classe -supervision -apprentissage supervisé Un auto-apprentissage au choix en classe-Pas de supervision Apprentissage non supervisé
la source