Quelle est la différence entre l'apprentissage par renforcement sans modèle et basé sur le modèle?

29

Quelle est la différence entre l'apprentissage par renforcement sans modèle et basé sur le modèle?

Il me semble que tout apprenant sans modèle, apprenant par essais et erreurs, pourrait être recadré comme basé sur un modèle. Dans ce cas, quand les apprenants sans modèle seraient-ils appropriés?

vin
la source
Voir aussi cette réponse: qr.ae/TUtHbv .
nbro
Comment voulez-vous dire que vous pouvez recadrer un apprenant sans modèle comme un modèle?
HelloGoodbye

Réponses:

14

L'apprentissage par renforcement basé sur un modèle demande à un agent d'essayer de comprendre le monde et de créer un modèle pour le représenter. Ici , le modèle cherche à capturer 2 fonctions, la fonction de transition d'états et la fonction de récompense . A partir de ce modèle, l'agent dispose d'une référence et peut planifier en conséquence.TR

Cependant, il n'est pas nécessaire d'apprendre un modèle, et l'agent peut à la place apprendre une politique directement à l'aide d'algorithmes comme Q-learning ou gradient de politique.

Une simple vérification pour voir si un algorithme RL est basé sur un modèle ou sans modèle est:

Si, après avoir appris, l'agent peut faire des prédictions sur ce que sera le prochain état et la récompense avant d'entreprendre chaque action, il s'agit d'un algorithme RL basé sur un modèle.

Si ce n'est pas le cas, alors c'est un algorithme sans modèle.

Jaden Travnik
la source
2
selon vos mots, "il n'est pas nécessaire d'apprendre un modèle", et ma question est: pourquoi est-ce que quelqu'un adopterait une approche basée sur un modèle?
vin
4
Un grand exemple auquel je peux penser est quand vous voulez qu'un agent apprenne ce qui l'entoure sans vraiment rien optimiser. Cela fait partie du problème de l'apprentissage continu, vous devez construire un modèle interne comme «Je frappe des murs lorsque mon capteur de distance lit qu'un mur est proche», puis cet agent peut généraliser ces informations à plusieurs tâches si elles se présentent.
Jaden Travnik
2
merci @Jaden Travnik. je comprends pourquoi il serait utile d'apprendre une représentation de l'environnement ("je frappe des murs quand ma distance lit un mur est proche") sans résoudre une tâche (par exemple, naviguer vers la cuisine). mais pourquoi cela serait-il considéré comme un RL sans modèle , et non comme une tâche d'apprentissage supervisé à la vanille?
vin
2
Ce ne serait pas un apprentissage supervisé car il n'y a pas de données étiquetées. L'agent n'avait aucune idée de ce que signifient les signaux et ne pouvait donc pas distinguer un capteur de distance d'un thermomètre. Ce que l'agent apprend, ce sont des prédictions de signaux basées sur d'autres signaux, qui sont elles-mêmes un modèle de leur monde.
Jaden Travnik
2
avec une approche basée sur un modèle, l'agent apprend à prédire l'état suivant, selon votre explication d'origine. il le fait en apprenant <x, y>, où x est (s1, action) et y est (s2, récompense). désolé si je m'interprète mal, mais n'est-ce pas un apprentissage supervisé?
vin
12

Quelle est la différence entre l'apprentissage par renforcement sans modèle et basé sur le modèle?

Dans l'apprentissage par renforcement, les termes «basé sur un modèle» et «sans modèle» ne se réfèrent pas à l'utilisation d'un réseau neuronal ou d'un autre modèle d'apprentissage statistique pour prédire des valeurs, ni même pour prédire l'état suivant (bien que ce dernier puisse être utilisé comme partie d'un algorithme basé sur un modèle et être appelé un "modèle", que l'algorithme soit basé sur un modèle ou sans modèle).

Au lieu de cela, le terme se réfère strictement à savoir si, lors de l'apprentissage ou de l'action, l'agent utilise des prédictions de la réponse de l'environnement. L'agent peut utiliser une seule prédiction du modèle de la prochaine récompense et du prochain état (un échantillon), ou il peut demander au modèle la prochaine récompense attendue , ou la distribution complète des prochains états et des prochaines récompenses. Ces prédictions peuvent être fournies entièrement en dehors de l'agent d'apprentissage - par exemple par un code informatique qui comprend les règles d'un jeu de dés ou de plateau. Ou ils peuvent être appris par l'agent, auquel cas ils seront approximatifs.

Ce n'est pas parce qu'un modèle d'environnement est implémenté qu'un agent RL est "basé sur un modèle". Pour être qualifié de "basé sur un modèle", les algorithmes d'apprentissage doivent référencer explicitement le modèle:

  • Les algorithmes qui tirent uniquement parti de l'expérience tels que Monte Carlo Control, SARSA, Q-learning, Actor-Critic sont des algorithmes RL «sans modèle». Ils s'appuient sur des échantillons réels de l'environnement et n'utilisent jamais de prédictions générées de l'état suivant et de la prochaine récompense pour modifier le comportement (bien qu'ils puissent échantillonner à partir de la mémoire d'expérience, qui est presque un modèle).

  • Les algorithmes archétypiques basés sur un modèle sont la programmation dynamique (itération de politique et itération de valeur) - tous utilisent les prédictions ou les distributions du modèle de l'état suivant et de la récompense afin de calculer les actions optimales. Plus précisément dans la programmation dynamique, le modèle doit fournir des probabilités de transition d'état et la récompense attendue de n'importe quelle paire d'actions d'état. Notez qu'il s'agit rarement d'un modèle appris.

  • L'apprentissage TD de base, utilisant uniquement des valeurs d'état, doit également être basé sur un modèle afin de fonctionner comme un système de contrôle et de sélectionner des actions. Pour choisir la meilleure action, il doit interroger un modèle qui prédit ce qui se passera pour chaque action et implémenter une stratégie comme où est la probabilité de recevoir la récompense et l'état suivant lors de l'action dans l'état . Cette fonction est essentiellement le modèle.π(s)=argmaxas,rp(s,r|s,a)(r+v(s))p(s,r|s,a)rsasp(s,r|s,a)

La littérature RL établit une distinction entre le «modèle» en tant que modèle de l'environnement pour l'apprentissage «basé sur un modèle» et «sans modèle», et l'utilisation d'apprenants statistiques, tels que les réseaux de neurones.

Dans RL, les réseaux de neurones sont souvent utilisés pour apprendre et généraliser des fonctions de valeur, telles que la valeur Q qui prédit le rendement total (somme des récompenses actualisées) en fonction d'un état et d'une paire d'actions. Un tel réseau neuronal formé est souvent appelé un "modèle" dans, par exemple, l'apprentissage supervisé. Cependant, dans la littérature RL, vous verrez le terme "fonction d'approximateur" utilisé pour un tel réseau pour éviter toute ambiguïté.

Il me semble que tout apprenant sans modèle, apprenant par essais et erreurs, pourrait être recadré comme basé sur un modèle.

Je pense que vous utilisez ici la compréhension générale du mot «modèle» pour inclure toute structure qui fait des prédictions utiles. Cela s'appliquerait par exemple au tableau des valeurs Q dans SARSA.

Cependant, comme expliqué ci-dessus, ce n'est pas ainsi que le terme est utilisé dans RL. Donc, bien que votre compréhension du fait que RL crée des représentations internes utiles est correcte, vous n'êtes pas techniquement correct que cela puisse être utilisé pour recadrer entre "sans modèle" comme "basé sur un modèle", car ces termes ont une signification très spécifique dans RL .

Dans ce cas, quand les apprenants sans modèle seraient-ils appropriés?

Généralement avec l'état actuel de la technique en RL, si vous n'avez pas de modèle précis fourni dans le cadre de la définition du problème, les approches sans modèle sont souvent supérieures.

Il y a beaucoup d'intérêt pour les agents qui construisent des modèles prédictifs de l'environnement, et le faire comme un «effet secondaire» (tout en étant un algorithme sans modèle) peut toujours être utile - il peut régulariser un réseau de neurones ou aider à découvrir des facteurs prédictifs clés fonctionnalités qui peuvent également être utilisées dans les réseaux de stratégie ou de valeur. Cependant, les agents basés sur des modèles qui apprennent leurs propres modèles de planification ont un problème que l'inexactitude de ces modèles peut provoquer une instabilité (les inexactitudes se multiplient d'autant plus dans l'avenir que regarde l'agent). Certaines percées prometteuses sont en cours en utilisant des agents et / ou des mécanismes basés sur l' imagination pour décider quand et dans quelle mesure faire confiance au modèle appris pendant la planification.

À l'heure actuelle (en 2018), si vous avez un problème réel dans un environnement sans modèle connu explicite au début, alors le pari le plus sûr est d'utiliser une approche sans modèle telle que DQN ou A3C. Cela pourrait changer car le domaine évolue rapidement et de nouvelles architectures plus complexes pourraient bien devenir la norme dans quelques années.

Neil Slater
la source
1
Une petite correction, normalement les termes "basé sur un modèle" ou "sans modèle" ne sont pas utilisés pour planifier des algorithmes tels que les SCTM. Il est uniquement utilisé pour classer les algorithmes d'apprentissage.
Miguel Saraiva
@MiguelSaraiva: Je n'en suis pas sûr à 100%, mais j'ai supprimé la référence aux SCTM. Par intérêt, où placeriez-vous DynaQ concernant cette limitation de l'utilisation des termes? Je pense qu'il devient difficile, lorsque les algorithmes partagent tous une telle vision commune du modèle MDP et de l'amélioration des politiques, de dire où se situent les limites entre la planification et l'apprentissage.
Neil Slater
Je peux me tromper, je suis novice dans la région. Je me souviens juste d'un enseignant du terrain faisant ce commentaire après avoir fait la même remarque.
Miguel Saraiva
5

Dans l'apprentissage par renforcement (RL), il existe un agent qui interagit avec un environnement (par pas de temps). À chaque pas de temps, l'agent décide et exécute une action , , sur un environnement, et l'environnement répond à l'agent en passant de l' état actuel (de l'environnement), , à l'état suivant (de l'environnement), , et en émettant un signal scalaire, appelé récompense , . En principe, cette interaction peut se poursuivre indéfiniment ou jusqu'à ce que, par exemple, l'agent décède.as s rssr

L'objectif principal de l'agent est de collecter le plus grand montant de récompense "à long terme". Pour ce faire, l'agent doit trouver une politique optimale (en gros, la stratégie optimale pour se comporter dans l'environnement). En général, une politique est une fonction qui, étant donné un état actuel de l'environnement, génère une action (ou une distribution de probabilité sur les actions, si la politique est stochastique ) à exécuter dans l'environnement. Une politique peut ainsi être considérée comme la «stratégie» utilisée par l'agent pour se comporter dans cet environnement. Une politique optimale (pour un environnement donné) est une politique qui, si elle est suivie, fera que l'agent percevra la plus grande quantité de récompense à long terme (ce qui est l'objectif de l'agent). En RL, nous nous intéressons donc à trouver des politiques optimales.

L'environnement peut être déterministe (c'est-à-dire qu'en gros, la même action dans le même état conduit au même état suivant, pour tous les pas de temps) ou stochastique (ou non déterministe), c'est-à-dire si l'agent prend une action dans un certain état, le prochain état résultant de l'environnement pourrait ne pas nécessairement être toujours le même: il y a une probabilité que ce soit un certain état ou un autre. Bien entendu, ces incertitudes compliqueront la tâche de trouver la politique optimale.

En RL, le problème est souvent formulé mathématiquement comme un processus de décision de Markov (MDP). Un MDP est un moyen de représenter la "dynamique" de l'environnement, c'est-à-dire la façon dont l'environnement réagira aux actions possibles que l'agent pourrait entreprendre, à un état donné. Plus précisément, un MDP est équipé d'une fonction de transition (ou "modèle de transition"), fonction qui, compte tenu de l'état actuel de l'environnement et d'une action (que l'agent pourrait entreprendre), génère une probabilité de se déplacer vers n'importe quel des prochains états. Une fonction de récompenseest également associé à un MDP. Intuitivement, la fonction de récompense génère une récompense, compte tenu de l'état actuel de l'environnement (et, éventuellement, d'une action entreprise par l'agent et de l'état suivant de l'environnement). Collectivement, les fonctions de transition et de récompense sont souvent appelées le modèle de l'environnement. Pour conclure, le MDP est le problème et la solution au problème est une politique. De plus, la «dynamique» de l'environnement est régie par les fonctions de transition et de récompense (c'est-à-dire le «modèle»).

Cependant, nous n'avons souvent pas le MDP, c'est-à-dire que nous n'avons pas les fonctions de transition et de récompense (du MDP associé à l'environnement). Par conséquent, nous ne pouvons pas estimer une politique du MDP, car elle est inconnue. Notez que, en général, si nous avions les fonctions de transition et de récompense du MDP associées à l'environnement, nous pourrions les exploiter et récupérer une politique optimale (en utilisant des algorithmes de programmation dynamique).

En l'absence de ces fonctions (c'est-à-dire lorsque le MDP est inconnu), pour estimer la politique optimale, l'agent doit interagir avec l'environnement et observer les réponses de l'environnement. C'est ce que l'on appelle souvent le «problème d'apprentissage par renforcement», car l'agent devra estimer une politique en renforçant ses croyances sur la dynamique de l'environnement. Au fil du temps, l'agent commence à comprendre comment l'environnement réagit à ses actions, et il peut ainsi commencer à estimer la politique optimale. Ainsi, dans le problème RL, l'agent estime la politique optimale à adopter dans un environnement inconnu (ou partiellement connu) en interagissant avec lui (en utilisant une approche «d'essai et d'erreur»).

Dans ce contexte, un modèlealgorithme est un algorithme qui utilise la fonction de transition (et la fonction de récompense) afin d'estimer la politique optimale. L'agent peut avoir accès uniquement à une approximation de la fonction de transition et des fonctions de récompense, qui peut être apprise par l'agent pendant qu'il interagit avec l'environnement ou peut être donnée à l'agent (par exemple par un autre agent). En général, dans un algorithme basé sur un modèle, l'agent peut potentiellement prédire la dynamique de l'environnement (pendant ou après la phase d'apprentissage), car il dispose d'une estimation de la fonction de transition (et de la fonction de récompense). Cependant, notez que les fonctions de transition et de récompense que l'agent utilise pour améliorer son estimation de la politique optimale pourraient simplement être des approximations des fonctions «vraies». Par conséquent, la politique optimale pourrait ne jamais être trouvée (en raison de ces approximations).

Un algorithme sans modèle est un algorithme qui estime la politique optimale sans utiliser ni estimer la dynamique (fonctions de transition et de récompense) de l'environnement. En pratique, un algorithme sans modèle estime soit une "fonction de valeur" soit la "politique" directement à partir de l'expérience (c'est-à-dire l'interaction entre l'agent et l'environnement), sans utiliser ni la fonction de transition ni la fonction de récompense. Une fonction de valeur peut être considérée comme une fonction qui évalue un état (ou une action entreprise dans un état), pour tous les états. De cette fonction de valeur, une politique peut alors être dérivée.

En pratique, une façon de faire la distinction entre les algorithmes basés sur un modèle ou sans modèle consiste à examiner les algorithmes et à voir s'ils utilisent la fonction de transition ou de récompense.

Par exemple, regardons la règle de mise à jour principale dans l' algorithme Q-learning :

Q(St,At)Q(St,At)+α(Rt+1+γmaxaQ(St+1,a)Q(St,At))

Comme nous pouvons le voir, cette règle de mise à jour n'utilise aucune probabilité définie par le MDP. Remarque: n'est que la récompense obtenue au pas de temps suivant (après avoir effectué l'action), mais elle n'est pas nécessairement connue au préalable. Ainsi, Q-learning est un algorithme sans modèle.Rt+1

Maintenant, regardons la règle de mise à jour principale de l' algorithme d' amélioration des politiques :

Q(s,a)sS,rRp(s,r|s,a)(r+γV(s))

On peut observer immédiatement qu'il utilise , une probabilité définie par le modèle MDP. Ainsi, l'itération de politique (un algorithme de programmation dynamique), qui utilise l'algorithme d'amélioration de politique, est un algorithme basé sur un modèle.p(s,r|s,a)

nbro
la source
2

RL sans modèle

Dans Model-Free RL, l'agent n'a pas accès à un modèle de l'environnement. Par environnement, j'entends une fonction qui prédit la transition d'état et les récompenses.

Au moment de la rédaction du présent document, les méthodes sans modèle sont plus populaires et ont fait l'objet de nombreuses recherches.

RL basé sur le modèle

Dans Model-Based RL, l'agent a accès à un modèle de l'environnement.

Le principal avantage est que cela permet à l'agent de planifier à l'avance en anticipant. Les agents distillent les résultats de la planification à l'avance dans une politique apprise. AlphaZero est un exemple célèbre de RL basé sur un modèle .

L'inconvénient principal est que de nombreuses fois une représentation de la réalité de l'environnement n'est généralement pas disponible.


Vous trouverez ci-dessous une taxonomie non exhaustive des algorithmes RL, qui peut vous aider à mieux visualiser le paysage RL.

entrez la description de l'image ici

Rrz0
la source
1

Selon OpenAI - Kinds of RL Algorithms , les algorithmes qui utilisent un modèle de l'environnement, c'est-à-dire une fonction qui prédit les transitions d'état et les récompenses, sont appelés méthodes basées sur le modèle , et celles qui ne le sont pas sont sans modèle . Ce modèle peut avoir été donné à l'agent ou appris par l'agent.

L'utilisation d'un modèle permet à l'agent de planifier en anticipant, en voyant ce qui se passerait pour une gamme de choix possibles et en décidant explicitement entre ses options. Cela peut être utile face à des problèmes qui nécessitent une réflexion à plus long terme. Une façon d'effectuer la planification consiste à utiliser une sorte de recherche d'arbre, par exemple la recherche d'arbre Monte Carlo (SCTM), ou - qui, je pense, pourrait également être utilisée - des variantes de l'arbre aléatoire à exploration rapide (RRT). Voir par exemple les agents qui imaginent et planifient .

L'agent peut ensuite distiller les résultats de la planification à l'avance dans une politique apprise - c'est ce qu'on appelle l'itération experte.

Un modèle peut également être utilisé pour créer un environnement simulé ou «imaginé» dans lequel l'état est mis à jour à l'aide du modèle, et pour que l'agent apprenne à l'intérieur de cet environnement, comme dans World Models .

Dans de nombreux scénarios du monde réel, le modèle de réalité de l'environnement n'est pas disponible pour l'agent. Si un agent veut utiliser un modèle dans ce cas, il doit apprendre le modèle, ce qui peut être difficile pour plusieurs raisons.

Il existe cependant des cas où l'agent utilise un modèle déjà connu et n'a donc pas à apprendre le modèle, comme dans AlphaZero , où le modèle se présente sous la forme des règles du jeu.

Bonjour au revoir
la source
1

Bien qu'il y ait plusieurs bonnes réponses, je veux ajouter ce paragraphe de Renforcement de l'apprentissage: une introduction , page 303, pour une vision plus psychologique de la différence.

La distinction entre les algorithmes d'apprentissage par renforcement sans modèle et à base de modèle correspond à la distinction que les psychologues font entre le contrôle habituel et le contrôle ciblé des modèles de comportement appris. Les habitudes sont des modèles de comportement déclenchés par des stimuli appropriés, puis exécutés plus ou moins automatiquement. Le comportement axé sur les objectifs, selon la façon dont les psychologues utilisent l'expression, est utile dans le sens où il est contrôlé par la connaissance de la valeur des objectifs et de la relation entre les actions et leurs conséquences. On dit parfois que les habitudes sont contrôlées par des stimuli antécédents, tandis que le comportement dirigé vers un objectif est contrôlé par ses conséquences (Dickinson, 1980, 1985). Le contrôle ciblé a l'avantage de pouvoir changer rapidement le comportement d'un animal lorsque l'environnement change sa façon de réagir aux actions de l'animal. Bien que le comportement habituel réagisse rapidement aux entrées d'un environnement habituel, il est incapable de s'adapter rapidement aux changements de l'environnement.

Il continue à partir de là et a un bel exemple après.

Je pense que le point principal qui n'a pas toujours été expliqué dans les autres réponses, c'est que dans une approche sans modèle, vous avez toujours besoin d'une sorte d'environnement pour vous dire quelle est la récompense associée à votre action. La grande différence est que vous n'avez PAS besoin de stocker d'informations sur le modèle. Vous donnez à l'environnement l'action que vous avez choisie, vous mettez à jour votre politique estimée et vous l'oubliez. D'un autre côté, dans les approches basées sur un modèle, vous devez soit connaître l'historique des transitions d'état comme dans la programmation dynamique, soit vous devez être en mesure de calculer tous les états suivants possibles et les récompenses associées, à partir de l'état actuel.

Miguel Saraiva
la source