J'essaie de comprendre l'apprentissage par renforcement et les processus de décision markoviens (MDP) dans le cas où un réseau neuronal est utilisé comme approximateur de fonction.
J'ai des difficultés avec la relation entre le MDP où l'environnement est exploré de manière probabiliste, comment cela correspond aux paramètres d'apprentissage et comment la solution / les politiques finales sont trouvées.
Ai-je raison de supposer que dans le cas de l'apprentissage Q, le réseau neuronal agit essentiellement comme un approximateur de fonction pour la valeur q elle-même tant d'étapes à l'avenir? Comment cette correspondance avec la mise à jour des paramètres via la rétropropagation ou d'autres méthodes?
De plus, une fois que le réseau a appris à prédire la future récompense, comment cela s'inscrit-il dans le système en termes de prise de décision? Je suppose que le système final ne ferait pas de transition probabiliste entre les états.
Merci
la source
Réponses:
Dans Q-Learning, à chaque étape, vous utiliserez des observations et des récompenses pour mettre à jour votre fonction de valeur Q:
Vous avez raison de dire que le réseau neuronal n'est qu'une approximation de fonction pour la fonction de valeur q.
En général, la partie d'approximation n'est qu'un problème d'apprentissage supervisé standard. Votre réseau utilise (s, a) comme entrée et la sortie est la valeur q. Comme les valeurs q sont ajustées, vous devez former ces nouveaux échantillons au réseau. Néanmoins, vous rencontrerez des problèmes lors de l'utilisation d'échantillons corrélés et SGD en souffrira.
Si vous regardez le document DQN, les choses sont légèrement différentes. Dans ce cas, ce qu'ils font, c'est mettre des échantillons dans un vecteur (relecture d'expérience). Pour enseigner le réseau, ils échantillonnent des tuples du vecteur, bootstrap en utilisant ces informations pour obtenir une nouvelle valeur q qui est enseignée au réseau. Quand je dis enseignement, je veux dire ajuster les paramètres du réseau en utilisant la descente de gradient stochastique ou votre approche d'optimisation préférée. En n'enseignant pas les échantillons dans l'ordre qui sont collectés par la politique, on les décorrèle et cela aide à la formation.
Enfin, pour prendre une décision sur l'état , vous choisissez l'action qui fournit la valeur q la plus élevée:s
Si votre fonction de valeur Q a été apprise complètement et que l'environnement est stationnaire, il est bon d'être gourmand à ce stade. Cependant, tout en apprenant, vous devez explorer. Il existe plusieurs approches étant -greedy l'un des moyens les plus simples et les plus courants.ε
la source