Dynamique d'apprentissage

8

J'ai récemment découvert le Q-learning, une technique d'apprentissage par renforcement qui estime directement la valeur attendue d'une action dans un état.

Je me demande s'il existe des techniques pour faire de "l'apprentissage dynamique", afin d'estimer la dynamique d'un système. Un agent "d'apprentissage dynamique" pourrait choisir des actions qui l'aideraient à estimer la fonction de transition d'état ou à estimer les paramètres d'une fonction de transition connue.

Par exemple, un agent "d'apprentissage dynamique" dans le système de chariot-pôle découvrirait une fonction qui se rapproche des équations de mouvement du chariot-pôle. Ou bien, l'agent peut connaître ces équations, mais pas les paramètres du système, comme le moment d'inertie du pendule ou la masse du chariot.

Quelles techniques existe-t-il pour faire un "apprentissage dynamique"?

Robz
la source

Réponses:

4

Il y a trois problèmes. Tout d'abord, vous devez choisir une classe de modèles pour la dynamique. Deuxièmement, vous devez construire un ensemble d'entraînement, en entraînant l'agent sur différentes trajectoires pour explorer l'espace d'état. Troisièmement, vous avez besoin d'un moyen pour apprendre / déduire un modèle de dynamique particulier à partir de cet ensemble d'entraînement. Il existe différentes façons d'instancier chacune de ces tâches.

En robotique, un choix courant consiste à utiliser un processus de décision de Markov (MDP) pour le modèle dynamique. C'est un choix pratique, car il existe des moyens relativement standard d'apprendre un MDP à partir d'un ensemble de formation, et parce que, étant donné un modèle de dynamique MDP, il est bien étudié comment construire un contrôleur pour le système qui prend en compte la dynamique. Une autre option consiste à utiliser un processus de décision de Markov d'ordre supérieur ou un processus de décision de Markov partiellement observable, mais ceux-ci peuvent être beaucoup plus difficiles à utiliser.

Il existe de nombreuses façons d'explorer l'espace d'état. Le chapitre 3.1 de la thèse de doctorat de Pieter Abbeel a un bel aperçu à partir de 2008.

Pour déduire / apprendre un MDP à partir d'un ensemble de formation, vous pouvez utiliser l'estimation du maximum de vraisemblance. Des techniques plus sophistiquées sont également possibles; voir également la thèse de doctorat d'Abbeel pour une vue d'ensemble (chapitres 3 et 4).

Plus généralement, voir la littérature sur l' identification des systèmes dans le domaine de la théorie du contrôle.

DW
la source