L'algorithme tabulaire d'apprentissage Q est garanti pour trouver la fonction optimale , , à condition que les conditions suivantes (les conditions Robbins-Monro ) concernant le taux d'apprentissage soient remplies
où signifie le taux d'apprentissage utilisé lors de la mise à jour de la valeur associée à l'état et à l'action au pas de temps , où est supposé être vrai, pour tous les Etats et des actions .
Apparemment, étant donné que , pour que les deux conditions soient vraies, toutes les paires état-action doivent être visitées à l'infini souvent: cela est également indiqué dans le livre Reinforcement Learning: An Introduction , outre le fait que cela devrait être largement connu et que c'est la raison d'être de l'utilisation de la politique -regedy (ou des politiques similaires) pendant la formation.
Une preuve complète qui montre que -learning trouve le Q optimal fonction peut être trouvée dans l'article Convergence of Q-learning: A Simple Proof (par Francisco S. Melo). Il utilise des concepts comme la cartographie de contraction afin de définir la fonction optimale (voir aussi Qu'est-ce que l'opérateur Bellman dans l'apprentissage par renforcement? ), Qui est un point fixe de cet opérateur de contraction. Il utilise également un théorème (n. 2) concernant le processus aléatoire qui converge vers , compte tenu de quelques hypothèses. (La preuve peut ne pas être facile à suivre si vous n'êtes pas un mathématicien.)
Si un réseau de neurones est utilisé pour représenter fonction Q , les garanties de convergence de l'apprentissage elles toujours valables? Pourquoi (ou non) Q-learning converge-t-il lors de l'utilisation de l'approximation de fonction? Existe-t-il une preuve formelle d'une telle non-convergence de l'apprentissage utilisant l'approximation de fonction?
Je recherche différents types de réponses, de celles qui donnent juste l'intuition derrière la non-convergence du learning lors de l'utilisation de l'approximation de fonction à celles qui fournissent une preuve formelle (ou un lien vers un article avec une preuve formelle).
Réponses:
Voici une réponse de description intuitive:
L'approximation des fonctions peut être effectuée avec n'importe quelle fonction paramétrable. Considérons le problème d'un espaceQ(s,a) où s est les réels positifs, a est 0 ou 1 , et la vraie fonction Q(s,0)=s2 est Q ( s , 0 ) = s 2 , et Q(s,1)=2s2 , pour tous les États. Si votre approximateur de fonction est Q(s,a)=m∗s+n∗a+b , il n'existe aucun paramètre pouvant représenter avec précision la vraiefonctionQ (nous essayons d'adapter une ligne à une fonction quadratique). Par conséquent, même si vous choisissez un bon taux d'apprentissage et que vous visitez tous les états indéfiniment, votre fonction d'approximation ne convergera jamais vers la vraiefonctionQ
Et voici un peu plus de détails:
Les réseaux de neurones sont des approximateurs de fonctions universelles . Cela signifie que, si vous avez une fonction, vous pouvez également créer un réseau de neurones suffisamment profond ou large pour pouvoir approximer la fonction que vous avez créée à un degré arbitrairement précis. Cependant, toute topologie de réseau spécifique que vous choisirez ne pourra pas tout savoir fonctions, sauf si elle est infiniment large ou infiniment profonde. Ceci est analogue à la façon dont, si vous choisissez les bons paramètres, une ligne peut s'adapter à deux points, mais pas à 3 points. Si vous choisissez un réseau d'une certaine largeur ou profondeur finie, je peux toujours construire une fonction qui a besoin de quelques neurones de plus pour s'adapter correctement.
Les limites de Q-learning ne tiennent que lorsque la représentation de la fonction Q est exacte . Pour voir pourquoi, supposons que vous ayez choisi d'approximer votre fonction Q avec une interpolation linéaire. Si la vraie fonction peut prendre n'importe quelle forme, alors clairement l'erreur dans notre interpolation peut être rendue illimitée simplement en construisant une fonction de fonction Q de type XOR, et aucune quantité de temps ou de données supplémentaires ne nous permettra de réduire cette erreur . Si vous utilisez un approximateur de fonction et que la vraie fonction que vous essayez d'ajuster n'est pasquelque chose que la fonction peut approximativement bien arbitrairement, alors votre modèle ne convergera pas correctement, même avec un taux d'apprentissage et un taux d'exploration bien choisis. En utilisant la terminologie de la théorie de l'apprentissage informatique, nous pourrions dire que les preuves de convergence pour l'apprentissage Q ont implicitement supposé que la vraie fonction Q est un membre de l'espace d'hypothèses à partir duquel vous choisirez votre modèle.
la source
Pour autant que je sache, il est encore un peu difficile de comprendre vraiment clairement et formellement pourquoi / quand nous obtenons un manque de convergence - ou, pire, parfois un danger de divergence. Il est généralement attribué à la "triade mortelle" (voir 11.3 de la deuxième édition du livre de Sutton et Barto), la combinaison de:
Cela ne nous donne qu'une description (éventuellement non exhaustive) des cas dans lesquels nous avons un manque de convergence et / ou un danger de divergence, mais ne nous dit toujours pas pourquoi cela se produit dans ces cas.
Personnellement, je pense que cette intuition aide à comprendre pourquoi l'algorithme ne peut pas garantir la convergence vers la solution optimale, mais je m'attendrais toujours intuitivement à ce qu'il soit peut-être capable de "converger" vers une solution "stable" qui est la meilleure approximation possible donnée les restrictions inhérentes à la représentation de la fonction choisie. En effet, c'est ce que nous observons dans la pratique lorsque nous passons à la formation sur les politiques (par exemple Sarsa), au moins dans le cas des approximateurs de fonctions linéaires.
Enfin, un autre article (encore plus récent) que je soupçonne pertinent pour cette question est le diagnostic des goulots d'étranglement dans les algorithmes d'apprentissage en profondeur , mais malheureusement je n'ai pas encore eu le temps de le lire suffisamment en détail et de le résumer adéquatement.
la source