J'ai récemment découvert le Q-learning, une technique d'apprentissage par renforcement qui estime directement la valeur attendue d'une action dans un état.
Je me demande s'il existe des techniques pour faire de "l'apprentissage dynamique", afin d'estimer la dynamique d'un système. Un agent "d'apprentissage dynamique" pourrait choisir des actions qui l'aideraient à estimer la fonction de transition d'état ou à estimer les paramètres d'une fonction de transition connue.
Par exemple, un agent "d'apprentissage dynamique" dans le système de chariot-pôle découvrirait une fonction qui se rapproche des équations de mouvement du chariot-pôle. Ou bien, l'agent peut connaître ces équations, mais pas les paramètres du système, comme le moment d'inertie du pendule ou la masse du chariot.
Quelles techniques existe-t-il pour faire un "apprentissage dynamique"?