J'ai étudié les problèmes d'apprentissage du renforcement hiérarchique, et bien que de nombreux articles proposent des algorithmes pour l'apprentissage d'une politique, ils semblent tous supposer qu'ils connaissent à l'avance une structure graphique décrivant la hiérarchie des actions dans le domaine. Par exemple, la méthode MAXQ pour l'apprentissage de renforcement hiérarchique par Dietterich décrit un graphique des actions et des sous-tâches pour un simple domaine Taxi, mais pas comment ce graphique a été découvert. Comment apprendriez-vous la hiérarchie de ce graphique, et pas seulement la politique?
En d'autres termes, en utilisant l'exemple de l'article, si un taxi roulait sans but, avec peu de connaissances préalables du monde, et que seules les actions primitives déplacer-gauche / déplacer-droite / etc. go-pick-up-passager? Si je comprends bien le document (et je ne le suis peut-être pas), il propose comment mettre à jour la politique pour ces actions de haut niveau, mais pas comment elles sont formées pour commencer.
la source