J'essaie d'utiliser un réseau neuronal afin d'approximer la valeur Q dans l'apprentissage Q comme dans les questions sur l'apprentissage Q à l'aide des réseaux de neurones . Comme suggéré dans la première réponse, j'utilise une fonction d'activation linéaire pour la couche de sortie, tandis que...