Enseignement supervisé
- 1) Un humain construit un classificateur basé sur des données d' entrée et de sortie
- 2) Ce classificateur est formé avec un ensemble de données de formation
- 3) Ce classificateur est testé avec un ensemble de données de test
- 4) Déploiement si le résultat est satisfaisant
A utiliser quand, "je sais classer ces données, j'ai juste besoin de vous (le classificateur) pour les trier".
Point de méthode: classer les étiquettes ou produire des nombres réels
Apprentissage non supervisé
- 1) Un humain construit un algorithme basé sur des données d' entrée
- 2) Cet algorithme est testé avec un ensemble de données de test (dans lequel l'algorithme crée le classificateur)
- 3) Déploiement si le classifieur est satisfaisant
À utiliser lorsque, "Je ne sais pas comment classer ces données, pouvez-vous (l'algorithme) créer un classificateur pour moi?"
Point de méthode: Classer les étiquettes ou prévoir (PDF)
Apprentissage par renforcement
- 1) Un humain construit un algorithme basé sur des données d' entrée
- 2) Cet algorithme présente un état dépendant des données d' entrée dans lesquelles un utilisateur récompense ou punit l'algorithme via l' action que l'algorithme a pris, cela continue dans le temps
- 3) Cet algorithme apprend de la récompense / punition et se met à jour, cela continue
- 4) Il est toujours en production, il a besoin d'apprendre de vraies données pour pouvoir présenter les actions des états
À utiliser quand, "Je n'ai aucune idée de comment classer ces données, pouvez-vous classer ces données et je vous donnerai une récompense si c'est correct ou je vous punirai si ce n'est pas le cas."
Est-ce le genre de flux de ces pratiques, j'entends beaucoup parler de ce qu'elles font, mais les informations pratiques et exemplaires sont terriblement peu!
machine-learning
unsupervised-learning
supervised-learning
reinforcement-learning
Karl Morrison
la source
la source
Réponses:
Ceci est une très belle introduction compacte aux idées de base!
Apprentissage par renforcement
Je pense que votre description de cas d'utilisation de l'apprentissage par renforcement n'est pas tout à fait juste. Le terme classer n'est pas approprié. Une meilleure description serait:
En d'autres termes, le but est plutôt de bien contrôler quelque chose que de bien classer quelque chose.
Contribution
Algorithme
Sortie
la source
Avertissement: je ne suis pas un expert et je n'ai même jamais rien fait avec l'apprentissage par renforcement (donc), donc tout commentaire serait le bienvenu ...
Voici une réponse qui ajoute de minuscules notes mathématiques à votre liste et quelques réflexions différentes sur le moment d'utiliser quoi. J'espère que l'énumération est suffisamment explicite:
Supervisé
Réglage de la classification et de la régression
Sans surveillance
Mise en cluster, réduction de dimensionnalité, recherche de facteurs cachés, modèles génératifs, etc.
Renforcement
Cela semble particulièrement utile pour les tâches de décision séquentielle.
Références:
Si, J., Barto, A., Powell, W. et Wunsch, D. (2004) Reinforcement Learning and Its Relationship to Supervised Learning, dans Handbook of Learning and Approximate Dynamic Programming, John Wiley & Sons, Inc., Hoboken, NJ, États-Unis. doi: 10.1002 / 9780470544785.ch2
la source