Apprentissage non supervisé, supervisé et semi-supervisé

27

Dans le contexte de l'apprentissage automatique, quelle est la différence entre

  • apprentissage non supervisé
  • apprentissage supervisé et
  • apprentissage semi-supervisé?

Et quelles sont les principales approches algorithmiques à examiner?

Suis-je
la source
8
Tout d'abord, deux lignes de wiki: "En informatique, l'apprentissage semi-supervisé est une classe de techniques d'apprentissage automatique qui utilisent des données étiquetées et non étiquetées pour la formation - généralement une petite quantité de données étiquetées avec une grande quantité de données non étiquetées. L'apprentissage semi-supervisé se situe entre l'apprentissage non supervisé (sans données de formation étiquetées) et l'apprentissage supervisé (avec des données de formation entièrement étiquetées). " Est ce que ça aide?
Que pensez-vous des "approches algorithmiques"? J'ai donné quelques exemples d'applications dans ma réponse, c'est ce que vous cherchez?
Peter Smit

Réponses:

20

Généralement, les problèmes d'apprentissage automatique peuvent être considérés comme des variations de l'estimation de fonction pour la classification, la prédiction ou la modélisation.

Dans l' apprentissage supervisé, on est fourni avec une entrée ( x1 , x2 , ...,) et une sortie ( y1 , y2 , ...,) et il est difficile de trouver une fonction qui se rapproche de ce comportement de manière généralisable. La sortie pourrait être une étiquette de classe (dans la classification) ou un nombre réel (dans la régression) - ce sont les «supervision» dans l'apprentissage supervisé.

x1x2

L'apprentissage semi-supervisé implique l'estimation de fonction sur des données étiquetées et non étiquetées. Cette approche est motivée par le fait que les données étiquetées sont souvent coûteuses à générer, alors que les données non étiquetées ne le sont généralement pas. Le défi ici concerne principalement la question technique de savoir comment traiter les données mélangées de cette manière. Voir cette enquête sur la littérature sur l'apprentissage semi-supervisé pour plus de détails sur les méthodes d'apprentissage semi-supervisé.

a1a2r1r2

John L. Taylor
la source
1
Votre réponse implique en quelque sorte que l'apprentissage supervisé est préférable à l'apprentissage semi-supervisé, dans la mesure du possible. Est-ce exact? Sinon, quand un apprentissage semi-supervisé pourrait-il être meilleur?
naught101
@ naught101 Comment lisez-vous cela dans sa réponse? Je suis d'accord avec ce que dit John, mais je dirais le contraire de ce que vous dites, à savoir que l'apprentissage semi-supervisé est préférable à l'apprentissage supervisé dans la mesure du possible. Autrement dit, si vous avez des données étiquetées et des données non étiquetées (généralement beaucoup plus que la quantité de données étiquetées), vous feriez mieux si vous pouviez utiliser toutes les données que si vous ne pouviez utiliser que les données étiquetées. L'intérêt de l'utilisation de l'apprentissage semi-supervisé est de surpasser les performances obtenues en effectuant soit un apprentissage supervisé, soit un apprentissage non supervisé.
HelloGoodbye
@HelloGoodbye: parce que le seul avantage spécifié pour l'apprentissage semi-supervisé est qu'il est moins cher dans certains cas, mais il a l'avantage supplémentaire d'être plus difficile. Il me semble raisonnable qu'un apprentissage entièrement supervisé serait plus facile et plus précis (toutes choses étant égales par ailleurs), étant donné que davantage de données de vérité sur le terrain sont fournies. Je demandais donc simplement des exemples où, étant donné le choix entre les deux, la semi-supervision serait préférable. Votre commentaire est logique, mais y a-t-il un cas où toutes les données sont étiquetées et que vous préférez toujours semi-supervisé?
naught101
@ naught101 Je suppose que si toutes les données sont étiquetées, vous ne gagnez pas beaucoup en utilisant l'apprentissage semi-supervisé au lieu d'utiliser l'apprentissage supervisé normal. Lorsque vous avez beaucoup de données non étiquetées et que vous effectuez un apprentissage semi-supervisé, la principale raison pour laquelle vous constatez une amélioration des performances est que vous transférez l'apprentissage et que vous pouvez également tirer parti des données non étiquetées.
HelloGoodbye
@ naught101 Cependant, en confiant au réseau la tâche de reproduire au mieux les données d'entrée à partir des données de sortie (c'est-à-dire en mettant en œuvre un autoencodeur, qui est une sorte d'apprentissage non supervisé), le réseau est obligé d'apprendre de bonnes représentations des données. Cela peut agir comme une sorte de régularisation, qui à son tour peut également s'avérer bénéfique. Il y aurait donc peut-être un petit avantage à utiliser l'apprentissage semi-supervisé au lieu de l'apprentissage supervisé normal, même si toutes les données étaient étiquetées. Quelle est l'ampleur de cet effet, je ne sais pas.
HelloGoodbye
13

Apprentissage non supervisé

L'apprentissage non supervisé se produit lorsque vous n'avez pas de données étiquetées disponibles pour la formation. Des exemples de cela sont souvent des méthodes de clustering.

Enseignement supervisé

Dans ce cas, vos données d'entraînement existent à partir de données étiquetées. Le problème que vous résolvez ici consiste souvent à prévoir les étiquettes des points de données sans étiquette.

Apprentissage semi-supervisé

Dans ce cas, les données étiquetées et non étiquetées sont utilisées. Cela peut par exemple être utilisé dans les réseaux de croyances profondes, où certaines couches apprennent la structure des données (non supervisées) et une couche est utilisée pour effectuer la classification (formée avec des données supervisées)

Peter Smit
la source
7

Je ne pense pas que supervisé / non supervisé soit la meilleure façon d'y penser. Pour l'exploration de données de base, il est préférable de penser à ce que vous essayez de faire. Il y a quatre tâches principales:

  1. prédiction. si vous prédisez un nombre réel, cela s'appelle la régression. si vous prévoyez un nombre entier ou une classe, cela s'appelle la classification.

  2. la modélisation. la modélisation est la même que la prédiction, mais le modèle est compréhensible par l'homme. Les réseaux de neurones et les machines à vecteurs de support fonctionnent très bien, mais ne produisent pas de modèles compréhensibles [1]. Les arbres de décision et la régression linéaire classique sont des exemples de modèles faciles à comprendre.

  3. similarité. si vous essayez de trouver des groupes naturels d'attributs, cela s'appelle l'analyse factorielle. si vous essayez de trouver des groupes naturels d'observations, cela s'appelle regroupement.

  4. association. c'est un peu comme la corrélation, mais pour d'énormes ensembles de données binaires.

[1] Apparemment, Goldman Sachs a créé des tonnes de grands réseaux de neurones pour la prédiction, mais personne ne les a compris, ils ont donc dû écrire d'autres programmes pour essayer d'expliquer les réseaux de neurones.

Neil McGuigan
la source
pouvez-vous donner plus d'informations sur l'histoire de GS? (Je ne sais pas pourquoi je ne peux pas commenter directement votre commentaire)
YA
je ne me souviens pas exactement où j'ai lu cela, mais voici plus d'informations sur AI @ GS: hplusmagazine.com/2009/08/06/…
Neil McGuigan
J'ai le sentiment que 1,2 décrivent l'apprentissage dans un environnement supervisé et 3,4 résident dans un environnement non supervisé. Aussi: que se passe-t-il si vous recherchez des similitudes afin de prédire? Est-ce considéré comme une modélisation?
M. Tsjolder