Dans l'article de DeepMind de 2015 sur l'apprentissage par renforcement profond, il déclare que «les tentatives précédentes de combiner RL avec des réseaux de neurones ont échoué en grande partie en raison d'un apprentissage instable». L'article énumère ensuite certaines causes de cela, en fonction...