Dans l'apprentissage par renforcement, notre objectif est d'optimiser la fonction état-valeur ou l'action-valeur, qui sont définies comme suit:
Cependant, lorsque nous utilisons la méthode Q-learning pour obtenir la stratégie optimale, la méthode de mise à jour est la suivante:
Ma question est:
pourquoi en Q-learning il n'y a pas de probabilité de transition . Est-ce que cela signifie que nous n'en avons pas besoin lors de la modélisation de MDP?
Pour plus de clarté, je pense que vous devriez remplacerm aXune(Q′, a ) avec m aXune( Q (S′, a ) ) comme il n'y a qu'une seule fonction action-valeur, nous évaluons simplement Q sur les actions dans l'état suivant. Cette notation indique également oùp (s′| s,a) mensonges.
Intuitivement,p (s′| s,a) est une propriété de l'environnement. Nous ne contrôlons pas comment cela fonctionne, mais simplement en échantillonnons. Avant d'appeler cette mise à jour, nous devons d'abord effectuer une action A dans l'état S. Le processus de cette opération nous donne une récompense et nous envoie à l'état suivant. Cet état suivant dans lequel vous atterrissez est tiré dep (s′| s,a) par sa définition. Donc, dans la mise à jour de Q-learning, nous supposons essentiellementp (s′| s,a) est 1 parce que c'est là que nous nous sommes retrouvés.
C'est correct car c'est une méthode itérative où nous estimons la fonction optimale de la valeur d'action sans connaître la dynamique complète de l'environnement et plus précisément la valeur dep ( s |s′, a ) . S'il vous arrive d'avoir un modèle de l'environnement qui vous donne ces informations, vous pouvez modifier la mise à jour pour l'inclure en changeant simplement le retour àγp (S′| S, A ) m aXune( Q (S′, a ) ) .
la source
SARSA
ouQ-learning
) à utiliser pour faire face à différentes situations? Merci.En plus de ce qui précède, Q-Learning est un algorithme sans modèle , ce qui signifie que notre agent connaît simplement les états que lui donne l'environnement. En d'autres termes, si un agent sélectionne et exécute une action, l'état suivant est déterminé uniquement par l'environnement et donné à l'agent. Pour cette raison, l'agent ne pense pas aux probabilités de transition d'état.
la source