Quelle est exactement la différence entre un apprentissage supervisé et non supervisé?

28

J'essaie de comprendre les méthodes de clustering.

Ce que je pense avoir compris:

  1. Dans l'apprentissage supervisé, les catégories / étiquettes de données auxquelles sont affectées sont connues avant le calcul. Ainsi, les étiquettes, classes ou catégories sont utilisées afin «d'apprendre» les paramètres qui sont vraiment importants pour ces clusters.

  2. Dans l'apprentissage non supervisé, les ensembles de données sont affectés à des segments, sans que les clusters soient connus.

Est-ce à dire que si je ne sais même pas quels paramètres sont cruciaux pour une segmentation, je devrais préférer un apprentissage supervisé?

Prot
la source
2
Notez que le clustering n'est pas le seul type d'apprentissage non supervisé.
George
1
L'apprentissage supervisé est préférable lorsque des données de formation étiquetées sont disponibles. Vous pouvez partitionner vos données à l'aide de méthodes supervisées ou non supervisées. La principale différence étant que dans le cadre supervisé, vous connaissez la segmentation CORRECT pour vos données d'entraînement.
Nick

Réponses:

23

La différence est que dans l'apprentissage supervisé, les "catégories", "classes" ou "labels" sont connus. Dans l'apprentissage non supervisé, ils ne le sont pas, et le processus d'apprentissage tente de trouver des «catégories» appropriées. Dans les deux types d'apprentissage, tous les paramètres sont pris en compte pour déterminer ceux qui conviennent le mieux pour effectuer la classification.

Que vous choisissiez supervisé ou non supervisé doit être basé sur si vous savez ou non quelles sont les "catégories" de vos données. Si vous le savez, utilisez l'apprentissage supervisé. Si vous ne le savez pas, utilisez sans surveillance.

Comme vous disposez d'un grand nombre de paramètres et que vous ne savez pas lesquels sont pertinents, vous pouvez utiliser quelque chose comme l' analyse des composants principaux pour aider à déterminer ceux qui sont pertinents.

Dave Clarke
la source
13

Notez qu'il y a plus de 2 degrés de supervision. Par exemple, voir les pages 24-25 (6-7) dans la thèse de doctorat de Christian Biemann, Traitement du langage naturel non supervisé et sans connaissances dans le Structure Discovery Paradigm, 2007.

La thèse identifie 4 degrés: supervisé, semi-supervisé, faiblement supervisé et non supervisé, et explique les différences, dans un contexte de traitement du langage naturel. Voici les définitions pertinentes:

  • Dans les systèmes supervisés , les données telles que présentées à un algorithme d'apprentissage automatique sont entièrement étiquetées. Cela signifie: tous les exemples sont présentés avec une classification que la machine est censée reproduire. Pour cela, un classifieur est appris à partir des données, le processus d'attribution d'étiquettes à des instances encore invisibles est appelé classifi- cation.
  • Dans les systèmes semi-supervisés , la machine est également autorisée à prendre en compte les données non étiquetées. En raison d'une plus grande base de données, les systèmes semi-supervisés surpassent souvent leurs homologues supervisés en utilisant les mêmes exemples étiquetés. La raison de cette amélioration est que davantage de données non étiquetées permettent au système de modéliser plus précisément la structure inhérente des données.
  • Le bootstrap, également appelé auto-formation, est une forme d'apprentissage conçue pour utiliser encore moins d'exemples de formation, donc parfois appelée faiblement supervisé . Le bootstrapping commence par quelques exemples de formation, forme un classificateur et utilise des exemples positifs supposés fournis par ce classificateur pour le recyclage. Au fur et à mesure que l'ensemble d'exemples d'apprentissage augmente, le classificateur s'améliore, à condition que trop d'exemples négatifs ne soient pas classés comme positifs, ce qui pourrait entraîner une détérioration des performances.
  • Les systèmes non supervisés ne reçoivent aucun exemple de formation et effectuent le clustering. Il s'agit de la division des instances de données en plusieurs groupes. Les résultats des algorithmes de clustering sont basés sur les données, donc plus «naturels» et mieux adaptés à la structure sous-jacente des données. Cet avantage est également son inconvénient majeur: sans possibilité de dire à la machine quoi faire (comme en classification), il est difficile de juger de manière concluante la qualité des résultats de clustering. Mais l'absence de préparation d'exemples de formation rend le paradigme non supervisé très attrayant.
Erel Segal-Halevi
la source
0

Dans l'apprentissage supervisé, les classes sont connues à l'avance ainsi que leurs types, par exemple, deux classes de bons et de mauvais clients. Lorsqu'un nouvel objet (client) arrive sur la base de ses attributs, le client peut être affecté à une classe de clients mauvais ou bon.

Dans un apprentissage non supervisé, les groupes / classes ne sont pas déjà connus, nous avons des objets (clients), alors regroupez les clients ayant des habitudes d'achat similaires, donc différents groupes sont constitués des clients, c'est-à-dire pas déjà connus sur la base d'habitudes d'achat similaires.

Saad Ullah Khan
la source
0

Dans l'apprentissage supervisé, la sortie (variable dépendante) dépend de la variable d'entrée (variable indépendante). Dans un ensemble de supervisions données, le répondant essaie de calculer l'objectif souhaité.

Dans l'apprentissage non supervisé, il n'y a pas de supervision, le système essaie de s'adapter à la situation et apprend manuellement en fonction d'une certaine mesure.

Ex.: Enseignant en classe -supervision -apprentissage supervisé Un auto-apprentissage au choix en classe-Pas de supervision Apprentissage non supervisé

Cibe Sridharan
la source