Dans l'article de DeepMind sur Deep Q-Learning pour les jeux vidéo Atari ( ici ), ils utilisent une méthode epsilon-greedy pour l'exploration pendant la formation. Cela signifie que lorsqu'une action est sélectionnée pendant l'entraînement, elle est choisie soit comme action avec la valeur q la...