J'ai fait beaucoup de recherches récemment sur l'apprentissage par renforcement. J'ai suivi l' apprentissage par renforcement de Sutton & Barto : une introduction pour la plupart de cela. Je sais ce que sont les processus de décision de Markov et comment l'apprentissage par programmation...