Contexte: J'utilise l'approximation de la valeur Q du réseau neuronal dans ma tâche d'apprentissage par renforcement. L'approche est exactement la même que celle décrite dans cette question , mais la question elle-même est différente. Dans cette approche, le nombre de sorties est le nombre...