Pourquoi Q-learning ne converge-t-il pas lors de l'utilisation de l'approximation de fonction?

L'algorithme tabulaire d'apprentissage Q est garanti pour trouver la fonction QQQ optimale , Q∗Q∗Q^* , à condition que les conditions suivantes (les conditions Robbins-Monro ) concernant le taux d'apprentissage soient remplies ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty...