Apprentissage de la structure d'une tâche de renforcement hiérarchique

J'ai étudié les problèmes d'apprentissage du renforcement hiérarchique, et bien que de nombreux articles proposent des algorithmes pour l'apprentissage d'une politique, ils semblent tous supposer qu'ils connaissent à l'avance une structure graphique décrivant la hiérarchie des actions dans le domaine. Par exemple, la méthode MAXQ pour l'apprentissage de renforcement hiérarchique par Dietterich décrit un graphique des actions et des sous-tâches pour un simple domaine Taxi, mais pas comment ce graphique a été découvert. Comment apprendriez-vous la hiérarchie de ce graphique, et pas seulement la politique?

En d'autres termes, en utilisant l'exemple de l'article, si un taxi roulait sans but, avec peu de connaissances préalables du monde, et que seules les actions primitives déplacer-gauche / déplacer-droite / etc. go-pick-up-passager? Si je comprends bien le document (et je ne le suis peut-être pas), il propose comment mettre à jour la politique pour ces actions de haut niveau, mais pas comment elles sont formées pour commencer.

machine-learning Cerin
la source

Réponses:

Selon cet article

Dans l'état actuel de la technique, le concepteur d'un système RL utilise généralement des connaissances préalables sur la tâche pour ajouter un ensemble spécifique d'options à l'ensemble d'actions primitives disponibles pour l'agent.

Voir également la section 6.2 Hiérarchies des tâches d'apprentissage dans le même document.

La première idée qui me vient à l'esprit est que si vous ne connaissez pas les hiérarchies de tâches, vous devez commencer par l'apprentissage par renforcement non hiérarchique et essayer de découvrir la structure par la suite ou pendant l'apprentissage, c'est-à-dire que vous essayez de généraliser votre modèle. Pour moi, cette tâche ressemble à la technique de fusion de modèles bayésiens pour HMM (voir par exemple cette thèse )

Alexey Kalmykov
la source