Pourquoi ne voyez-vous pas de couches de décrochage sur les exemples d'apprentissage de renforcement?
Je me suis penché sur l'apprentissage par renforcement, et plus particulièrement sur la création de mes propres environnements à utiliser avec l'OpenAI Gym AI. J'utilise des agents du projet stable_baselines pour tester avec lui. Une chose que j'ai remarquée dans pratiquement tous les exemples RL...