Pensons aux situations suivantes:
- Vous apprenez à un robot à jouer au ping-pong
- Vous enseignez un programme pour calculer la racine carrée
- Vous enseignez les mathématiques à un enfant à l'école
Ces situations (c'est-à-dire l'apprentissage supervisé) et bien d'autres ont une chose (parmi d'autres) en commun: l'apprenant obtient une récompense en fonction de ses performances.
Ma question est, à quoi devrait ressembler la fonction de récompense? Y a-t-il une «meilleure» réponse ou cela dépend-il de la situation? Si cela dépend de la situation, comment déterminer la fonction de récompense à choisir?
Par exemple, prenez les trois fonctions de récompense suivantes:
- La fonction
A
dit:- en dessous d'un certain point, mauvais ou pire sont les mêmes: vous n'obtenez rien
- il y a une nette différence entre presque bon et parfait
- La fonction
B
dit:- vous obtenez une récompense linéairement proportionnelle à vos performances
- La fonction
C
dit:- si vos performances sont mauvaises, c'est ok, vous avez fait de votre mieux: vous obtenez toujours une récompense
- il n'y a pas beaucoup de différence entre parfait et presque bon
Intuitivement, je pense que A
cela rendrait le robot très concentré et apprendrait le modèle exact, mais deviendrait stupide lorsqu'il s'agit de modèles similaires, tout en C
le rendant plus adaptable pour changer au prix de perdre la perfection.
On pourrait aussi penser à des fonctions plus complexes, pour n'en montrer que peu:
Alors, comment sait-on quelle fonction choisir? Est - il connu que le comportement émergerait (au moins) de base A
, B
et les C
fonctions?
Une question secondaire est-ce que cela serait fondamentalement différent pour les robots et les enfants humains?
la source
A
, le robot pourrait devenir extrêmement bon pour la tâche exacte, mais terrible pour des tâches similaires mais légèrement différentes. C'est juste ma supposition cependant.X
m'a donné le meilleur résultat", même si ce n'est pas parfaitement correct, donnerait une bonne règle de base.Réponses:
Réponse courte: l'effet de renforcement le plus fort provient de la remise d'une récompense précieuse selon un horaire intermittent (aléatoire).
Version plus longue: Un aspect de votre question concerne le conditionnement opérant , du moins en ce qui concerne l'enseignement des mathématiques à un organisme complexe. L'application de cela à l'apprentissage automatique est connue sous le nom d' apprentissage par renforcement .
L'économie (selon la réponse de jwpat7 ) ne traite qu'une partie de l'histoire du renforcement. La fonction d'utilité vous indique quelle récompense a le plus fort effet de renforcement (le plus grand impact sur le comportement) dans un contexte donné. Est-ce un éloge? Chocolat? cocaïne? une stimulation électrique directe vers certaines zones du cerveau? Généralement, ma réponse concerne l'effet du contexte, en supposant une utilité de récompense donnée.
Pour les organismes / comportements complexes, la programmation des récompenses est au moins aussi importante que l'utilité des récompenses:
Si vous êtes un superviseur d'apprentissage avec un budget de récompense fixe, pour une situation d'apprentissage donnée, il y aura un équilibre optimal entre la taille de la récompense (utilité) et la fréquence. Ce n'est probablement pas une très petite tranche de récompense à une fréquence très élevée, ni un très gros morceau de récompense livré très rarement. Il peut même s'agir d'une récompense de taille aléatoire selon un horaire aléatoire - l'optimum est généralement déterminé expérimentalement pour une situation particulière.
Enfin, le calendrier «optimal» (fréquence aléatoire, quantité aléatoire {p (récompense), p (valeur)}) variera probablement à différentes étapes du processus d'apprentissage. Par exemple, un nouvel élève peut être soumis à un effet de "primauté" (bienvenue! Ayez un bonbon) qui devient rapidement une récompense à intervalle fixe si vous le répétez. Il pourrait y avoir un effet de «récence» qui obtient plus de valeur de renforcement d'une récompense délivrée lors du tout dernier essai («finir sur une note élevée»). Entre les deux, il peut y avoir un «effet de foi» cumulatif où, au fur et à mesure que l'apprenant devient plus expérimenté, l'optimum peut évoluer vers une probabilité plus faible et une utilité plus élevée au fil du temps. Encore une fois, plus de choses à déterminer empiriquement dans votre situation.
la source
"Apprentissage optimal" est un terme très vague, et il dépend complètement du problème spécifique sur lequel vous travaillez. Le terme que vous recherchez est " surajusté ":
(La ligne verte est l'erreur de prédiction du résultat sur les données d'entraînement, la ligne violette la qualité du modèle et la ligne rouge est l'erreur du modèle appris utilisé "en production")
En d'autres termes: quand il s'agit d'adapter votre comportement appris à des problèmes similaires, la façon dont vous avez récompensé votre système est moins importante que le nombre de fois que vous l'avez récompensé - vous voulez réduire les erreurs dans les données de formation, mais ne pas le conserver pendant la formation afin longtemps qu'il perd la capacité de travailler sur des modèles similaires.
Une méthode pour résoudre ce problème consiste à réduire de moitié vos données d'entraînement: utilisez une moitié pour apprendre et l'autre moitié pour valider la formation. Il vous aide à identifier le moment où vous commencez à sur-ajuster.
Fonctions de récompense non linéaires
La plupart des algorithmes d'apprentissage supervisé s'attendent à ce que l'application de la fonction de récompense produise une sortie convexe. En d'autres termes, avoir des minima locaux dans cette courbe empêchera votre système de converger vers le bon comportement. Cette vidéo montre un peu les mathématiques derrière les fonctions de coût / récompense .
la source
Ces questions sont abordées, dans une certaine mesure, par l'étude des fonctions d'utilité en économie. Une fonction d'utilité exprime les valeurs effectives ou perçues d'une chose en termes d'une autre. (Bien que les courbes montrées dans la question soient des fonctions de récompense et expriment la quantité de récompense qui sera offerte pour différents niveaux de performance, des fonctions utilitaires d'apparence similaire pourraient exprimer la quantité de performance résultant de différents niveaux de récompense.)
La fonction de récompense qui fonctionnera le mieux dépend des équilibres entre le payeur et l’artiste. L' article sur la courbe de contrat de wikipedia illustre avec des boîtes Edgeworth comment trouver des allocations efficaces de Pareto . Le théorème d'utilité de Von Neumann – Morgenstern délimite les conditions qui garantissent qu'un agent est rationnel VNM et peut être caractérisé comme ayant une fonction d'utilité. La section «Prédictions comportementales résultant de l'utilité HARA» de l'article sur l' aversion au risque absolu hyperbolique dans wikipedia décrit les conséquences comportementales de certaines fonctions d'utilité.
Résumé: Ces sujets ont fait l'objet de très nombreuses études en économie et en microéconomie. Malheureusement, l'extraction d'un résumé bref et utile qui répond à votre question peut également demander un travail considérable ou l'attention de quelqu'un de plus expert que moi.
la source
La fonction de récompense optimale dépend de l'objectif d'apprentissage, c'est-à-dire de ce qui doit être appris. Pour les problèmes simples, il peut être possible de trouver une représentation sous forme fermée pour la fonction de récompense optimale. En fait, pour des problèmes vraiment simples, je suis convaincu que cela est possible même si je ne connais aucune méthode formelle pour le faire (je pense que la théorie de l'utilité répondrait à cette question). Pour des problèmes plus complexes, je dirais qu'il n'est pas possible de trouver une solution sous forme fermée.
Au lieu de chercher la fonction optimale, nous pourrions nous tourner vers un expert pour une bonne fonction de récompense. Une approche pour ce faire est une technique appelée Inverse Reinforcement Learning (IRL). Il formule un problème d'apprentissage comme un problème d'apprentissage par renforcement où la fonction de récompense est inconnue et l'objectif du processus d'apprentissage. L'article Apprenticeship Learning via Inverse Reinforcement Learning de Pieter Abbeel et Andrew Ng est un bon endroit pour commencer à se renseigner sur l'IRL.
la source
Toute forme d'apprentissage supervisé est une recherche dirigée dans l'espace politique. Vous essayez de trouver la politique - ainsi quelle action à entreprendre - qui fournit l'attente de récompense maximale. Dans votre question, vous récompensez en fonction de la performance. Tant que cette fonction est monotone, toute méthode qui converge finira par vous donner des performances maximales (restez également avec votre terminologie).
La vitesse à laquelle la méthode converge est une autre question et peut bien dépendre de la courbe. Mais je pense que cela différera d'une méthode à l'autre.
Un problème entièrement différent est que pour des scénarios plus complexes, les performances ne sont pas un simple scalaire, et sa définition peut être assez difficile. Quelle est la fonction de récompense pour être bon en mathématiques?
la source