Quelle fonction de récompense permet un apprentissage optimal?

13

Pensons aux situations suivantes:

  • Vous apprenez à un robot à jouer au ping-pong
  • Vous enseignez un programme pour calculer la racine carrée
  • Vous enseignez les mathématiques à un enfant à l'école

Ces situations (c'est-à-dire l'apprentissage supervisé) et bien d'autres ont une chose (parmi d'autres) en commun: l'apprenant obtient une récompense en fonction de ses performances.

Ma question est, à quoi devrait ressembler la fonction de récompense? Y a-t-il une «meilleure» réponse ou cela dépend-il de la situation? Si cela dépend de la situation, comment déterminer la fonction de récompense à choisir?

Par exemple, prenez les trois fonctions de récompense suivantes:

entrez la description de l'image ici

  • La fonction Adit:
    • en dessous d'un certain point, mauvais ou pire sont les mêmes: vous n'obtenez rien
    • il y a une nette différence entre presque bon et parfait
  • La fonction Bdit:
    • vous obtenez une récompense linéairement proportionnelle à vos performances
  • La fonction Cdit:
    • si vos performances sont mauvaises, c'est ok, vous avez fait de votre mieux: vous obtenez toujours une récompense
    • il n'y a pas beaucoup de différence entre parfait et presque bon

Intuitivement, je pense que Acela rendrait le robot très concentré et apprendrait le modèle exact, mais deviendrait stupide lorsqu'il s'agit de modèles similaires, tout en Cle rendant plus adaptable pour changer au prix de perdre la perfection.

On pourrait aussi penser à des fonctions plus complexes, pour n'en montrer que peu:

entrez la description de l'image ici

Alors, comment sait-on quelle fonction choisir? Est - il connu que le comportement émergerait (au moins) de base A, Bet les Cfonctions?


Une question secondaire est-ce que cela serait fondamentalement différent pour les robots et les enfants humains?

Shahbaz
la source
Je doute qu'un robot devienne stupide en faisant la même chose ou une chose similaire encore et encore, à moins d'être cybernétique.
ott--
@ott, ce n'est pas ce que je voulais dire. Ce que je voulais dire, c'était avec une fonction de récompense similaire à A, le robot pourrait devenir extrêmement bon pour la tâche exacte, mais terrible pour des tâches similaires mais légèrement différentes. C'est juste ma supposition cependant.
Shahbaz
Ah, ok, je vois. Vous pensez au tennis par exemple
ott--
Peut-être que la théorie derrière cela pourrait être compliquée, mais une réponse qui dit "J'ai pensé que différentes tâches pour de nombreux robots et fonctionnaient souvent Xm'a donné le meilleur résultat", même si ce n'est pas parfaitement correct, donnerait une bonne règle de base.
Shahbaz

Réponses:

5

Réponse courte: l'effet de renforcement le plus fort provient de la remise d'une récompense précieuse selon un horaire intermittent (aléatoire).

Version plus longue: Un aspect de votre question concerne le conditionnement opérant , du moins en ce qui concerne l'enseignement des mathématiques à un organisme complexe. L'application de cela à l'apprentissage automatique est connue sous le nom d' apprentissage par renforcement .

L'économie (selon la réponse de jwpat7 ) ne traite qu'une partie de l'histoire du renforcement. La fonction d'utilité vous indique quelle récompense a le plus fort effet de renforcement (le plus grand impact sur le comportement) dans un contexte donné. Est-ce un éloge? Chocolat? cocaïne? une stimulation électrique directe vers certaines zones du cerveau? Généralement, ma réponse concerne l'effet du contexte, en supposant une utilité de récompense donnée.

Pour les organismes / comportements complexes, la programmation des récompenses est au moins aussi importante que l'utilité des récompenses:

  • Un «programme de récompense à intervalle fixe» est le moyen le moins efficace de modifier le comportement avec une quantité donnée de récompense (je vous donnerai 10 $ par semaine si vous gardez votre chambre bien rangée). Pensez Dud Bludger.
  • Les calendriers de récompense à ratio fixe (je vous donnerai 10 $ tous les sept jours où vous avez une chambre bien rangée) sont plus efficaces que les intervalles fixes, mais ils ont une sorte de plafond d'efficacité (le sujet rangera sa chambre sept fois lorsqu'il aura faim de $ 10, mais pas autrement). Pensez mercenaire.
  • Le moyen le plus influent de délivrer une récompense donnée avec un "programme de renforcement à intervalles variables" (par exemple, chaque jour où vous rangez votre chambre, vous avez 1/7 de chance d'obtenir 10 $). Pensez à la machine à poker.

Si vous êtes un superviseur d'apprentissage avec un budget de récompense fixe, pour une situation d'apprentissage donnée, il y aura un équilibre optimal entre la taille de la récompense (utilité) et la fréquence. Ce n'est probablement pas une très petite tranche de récompense à une fréquence très élevée, ni un très gros morceau de récompense livré très rarement. Il peut même s'agir d'une récompense de taille aléatoire selon un horaire aléatoire - l'optimum est généralement déterminé expérimentalement pour une situation particulière.

Enfin, le calendrier «optimal» (fréquence aléatoire, quantité aléatoire {p (récompense), p (valeur)}) variera probablement à différentes étapes du processus d'apprentissage. Par exemple, un nouvel élève peut être soumis à un effet de "primauté" (bienvenue! Ayez un bonbon) qui devient rapidement une récompense à intervalle fixe si vous le répétez. Il pourrait y avoir un effet de «récence» qui obtient plus de valeur de renforcement d'une récompense délivrée lors du tout dernier essai («finir sur une note élevée»). Entre les deux, il peut y avoir un «effet de foi» cumulatif où, au fur et à mesure que l'apprenant devient plus expérimenté, l'optimum peut évoluer vers une probabilité plus faible et une utilité plus élevée au fil du temps. Encore une fois, plus de choses à déterminer empiriquement dans votre situation.

Chris Gough
la source
Réponse très intéressante. Cela a beaucoup de sens.
Shahbaz
Je relis cette réponse, et je voudrais encore dire à quel point cette réponse est géniale! En fait, permettez-moi de vous donner une prime!
Shahbaz
6

"Apprentissage optimal" est un terme très vague, et il dépend complètement du problème spécifique sur lequel vous travaillez. Le terme que vous recherchez est " surajusté ": entrez la description de l'image ici

(La ligne verte est l'erreur de prédiction du résultat sur les données d'entraînement, la ligne violette la qualité du modèle et la ligne rouge est l'erreur du modèle appris utilisé "en production")

En d'autres termes: quand il s'agit d'adapter votre comportement appris à des problèmes similaires, la façon dont vous avez récompensé votre système est moins importante que le nombre de fois que vous l'avez récompensé - vous voulez réduire les erreurs dans les données de formation, mais ne pas le conserver pendant la formation afin longtemps qu'il perd la capacité de travailler sur des modèles similaires.

Une méthode pour résoudre ce problème consiste à réduire de moitié vos données d'entraînement: utilisez une moitié pour apprendre et l'autre moitié pour valider la formation. Il vous aide à identifier le moment où vous commencez à sur-ajuster.

Fonctions de récompense non linéaires

La plupart des algorithmes d'apprentissage supervisé s'attendent à ce que l'application de la fonction de récompense produise une sortie convexe. En d'autres termes, avoir des minima locaux dans cette courbe empêchera votre système de converger vers le bon comportement. Cette vidéo montre un peu les mathématiques derrière les fonctions de coût / récompense .

Ian
la source
3

Ces questions sont abordées, dans une certaine mesure, par l'étude des fonctions d'utilité en économie. Une fonction d'utilité exprime les valeurs effectives ou perçues d'une chose en termes d'une autre. (Bien que les courbes montrées dans la question soient des fonctions de récompense et expriment la quantité de récompense qui sera offerte pour différents niveaux de performance, des fonctions utilitaires d'apparence similaire pourraient exprimer la quantité de performance résultant de différents niveaux de récompense.)

La fonction de récompense qui fonctionnera le mieux dépend des équilibres entre le payeur et l’artiste. L' article sur la courbe de contrat de wikipedia illustre avec des boîtes Edgeworth comment trouver des allocations efficaces de Pareto . Le théorème d'utilité de Von Neumann – Morgenstern délimite les conditions qui garantissent qu'un agent est rationnel VNM et peut être caractérisé comme ayant une fonction d'utilité. La section «Prédictions comportementales résultant de l'utilité HARA» de l'article sur l' aversion au risque absolu hyperbolique dans wikipedia décrit les conséquences comportementales de certaines fonctions d'utilité.

Résumé: Ces sujets ont fait l'objet de très nombreuses études en économie et en microéconomie. Malheureusement, l'extraction d'un résumé bref et utile qui répond à votre question peut également demander un travail considérable ou l'attention de quelqu'un de plus expert que moi.

James Waldby - jwpat7
la source
C'est assez compliqué, je ne sais pas si je le comprends. Mais êtes-vous sûr que la fonction d'utilité de l'économie s'applique également à la robotique? Dans l'apprentissage supervisé (d'un robot), le payeur ne perd rien. La récompense était souvent juste un nombre indiquant au robot à quel point il avait bien fait la tâche.
Shahbaz
1

La fonction de récompense optimale dépend de l'objectif d'apprentissage, c'est-à-dire de ce qui doit être appris. Pour les problèmes simples, il peut être possible de trouver une représentation sous forme fermée pour la fonction de récompense optimale. En fait, pour des problèmes vraiment simples, je suis convaincu que cela est possible même si je ne connais aucune méthode formelle pour le faire (je pense que la théorie de l'utilité répondrait à cette question). Pour des problèmes plus complexes, je dirais qu'il n'est pas possible de trouver une solution sous forme fermée.

Au lieu de chercher la fonction optimale, nous pourrions nous tourner vers un expert pour une bonne fonction de récompense. Une approche pour ce faire est une technique appelée Inverse Reinforcement Learning (IRL). Il formule un problème d'apprentissage comme un problème d'apprentissage par renforcement où la fonction de récompense est inconnue et l'objectif du processus d'apprentissage. L'article Apprenticeship Learning via Inverse Reinforcement Learning de Pieter Abbeel et Andrew Ng est un bon endroit pour commencer à se renseigner sur l'IRL.

DaemonMaker
la source
0

Toute forme d'apprentissage supervisé est une recherche dirigée dans l'espace politique. Vous essayez de trouver la politique - ainsi quelle action à entreprendre - qui fournit l'attente de récompense maximale. Dans votre question, vous récompensez en fonction de la performance. Tant que cette fonction est monotone, toute méthode qui converge finira par vous donner des performances maximales (restez également avec votre terminologie).

La vitesse à laquelle la méthode converge est une autre question et peut bien dépendre de la courbe. Mais je pense que cela différera d'une méthode à l'autre.

Un problème entièrement différent est que pour des scénarios plus complexes, les performances ne sont pas un simple scalaire, et sa définition peut être assez difficile. Quelle est la fonction de récompense pour être bon en mathématiques?

Jakob
la source
La vitesse à laquelle la méthode converge est une autre question et peut bien dépendre de la courbe. , Oui bien sur. J'essayais de comprendre comment la courbe affecte l'apprentissage (et pas si c'est le cas, car je sais déjà que c'est le cas).
Shahbaz