Je veux créer une IA qui peut jouer à cinq dans une rangée / gomoku. Comme je l'ai mentionné dans le titre, je veux utiliser l'apprentissage par renforcement pour cela. J'utilise la méthode du gradient de politique , à savoir REINFORCE, avec la ligne de base. Pour l'approximation de la valeur et de...