Apprentissage supervisé, apprentissage non supervisé et apprentissage par renforcement: principes de base du flux de travail

30

Enseignement supervisé

  • 1) Un humain construit un classificateur basé sur des données d' entrée et de sortie
  • 2) Ce classificateur est formé avec un ensemble de données de formation
  • 3) Ce classificateur est testé avec un ensemble de données de test
  • 4) Déploiement si le résultat est satisfaisant

A utiliser quand, "je sais classer ces données, j'ai juste besoin de vous (le classificateur) pour les trier".

Point de méthode: classer les étiquettes ou produire des nombres réels

Apprentissage non supervisé

  • 1) Un humain construit un algorithme basé sur des données d' entrée
  • 2) Cet algorithme est testé avec un ensemble de données de test (dans lequel l'algorithme crée le classificateur)
  • 3) Déploiement si le classifieur est satisfaisant

À utiliser lorsque, "Je ne sais pas comment classer ces données, pouvez-vous (l'algorithme) créer un classificateur pour moi?"

Point de méthode: Classer les étiquettes ou prévoir (PDF)

Apprentissage par renforcement

  • 1) Un humain construit un algorithme basé sur des données d' entrée
  • 2) Cet algorithme présente un état dépendant des données d' entrée dans lesquelles un utilisateur récompense ou punit l'algorithme via l' action que l'algorithme a pris, cela continue dans le temps
  • 3) Cet algorithme apprend de la récompense / punition et se met à jour, cela continue
  • 4) Il est toujours en production, il a besoin d'apprendre de vraies données pour pouvoir présenter les actions des états

À utiliser quand, "Je n'ai aucune idée de comment classer ces données, pouvez-vous classer ces données et je vous donnerai une récompense si c'est correct ou je vous punirai si ce n'est pas le cas."

Est-ce le genre de flux de ces pratiques, j'entends beaucoup parler de ce qu'elles font, mais les informations pratiques et exemplaires sont terriblement peu!

Karl Morrison
la source
J'ai vraiment aimé la façon dont vous avez présenté votre question. J'ai trouvé cette réponse utile: stats.stackexchange.com/a/522/92255
Ashesh Kumar Singh

Réponses:

3

Ceci est une très belle introduction compacte aux idées de base!

Apprentissage par renforcement

Je pense que votre description de cas d'utilisation de l'apprentissage par renforcement n'est pas tout à fait juste. Le terme classer n'est pas approprié. Une meilleure description serait:

Je ne sais pas comment agir dans cet environnement , pouvez-vous trouver un bon comportement et en attendant je vais vous donner des retours .

En d'autres termes, le but est plutôt de bien contrôler quelque chose que de bien classer quelque chose.

Contribution

  • L' environnement qui est défini par
    • tous les états possibles
    • actions possibles dans les états
  • La fonction de récompense dépend de l'état et / ou de l'action

Algorithme

  • L'agent
    • est dans un état
    • prend une mesure pour transférer dans un autre état
    • obtient une récompense pour l'action en l'état

Sortie

  • L'agent veut trouver une politique optimale qui maximise la récompense
elcombato
la source
2

Avertissement: je ne suis pas un expert et je n'ai même jamais rien fait avec l'apprentissage par renforcement (donc), donc tout commentaire serait le bienvenu ...

Voici une réponse qui ajoute de minuscules notes mathématiques à votre liste et quelques réflexions différentes sur le moment d'utiliser quoi. J'espère que l'énumération est suffisamment explicite:

Supervisé

  1. D={(x0,y0),(x1,y1),,(xn,yn)}
  2. gL(yi,g(xi))0i<l
  3. Nous évaluons le modèle en calculant la perte / coût pour le reste des données ( ) afin d'avoir une idée de la façon dont le modèle généralisel i nLlin

Nous pouvons donner des exemples, mais nous ne pouvons pas donner d'algorithme pour passer de l'entrée à la sortie

Réglage de la classification et de la régression

Sans surveillance

  1. Nous avons des donnéesD={x0,x1,,xn}
  2. g
  3. Nous avons peu ou pas de mesures pour dire si nous avons fait quelque chose d'utile / intéressant

Nous avons quelques données, mais nous ne savons pas par où commencer pour chercher des trucs utiles / intéressants

Mise en cluster, réduction de dimensionnalité, recherche de facteurs cachés, modèles génératifs, etc.

Renforcement

  1. Nous n'avons pas de données
  2. gxiR(xi)
  3. Nous évaluons au moyen de la fonction de récompense après avoir eu le temps d'apprendre.

Nous ne savons pas comment faire quelque chose, mais nous pouvons dire si cela a été fait bien ou mal

Cela semble particulièrement utile pour les tâches de décision séquentielle.

Références:
Si, J., Barto, A., Powell, W. et Wunsch, D. (2004) Reinforcement Learning and Its Relationship to Supervised Learning, dans Handbook of Learning and Approximate Dynamic Programming, John Wiley & Sons, Inc., Hoboken, NJ, États-Unis. doi: 10.1002 / 9780470544785.ch2

M. Tsjolder
la source