Comment ajuster les poids dans les valeurs Q avec approximation de la fonction linéaire

Dans l'apprentissage par renforcement, l'approximation de fonction linéaire est souvent utilisée lorsque de grands espaces d'états sont présents. (Lorsque les tables de recherche deviennent irréalisables.)

La forme de la valeur avec approximation de la fonction linéaire est donnée par $Q-$

Q (s, a) = w_{1} f_{1} (s, a) + w_{2} f_{2} (s, a) + \dots,

$Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots,$

où sont les poids et les caractéristiques. $w_i$ $f_i$

Les fonctionnalités sont prédéfinies par l'utilisateur. Ma question est la suivante: comment les poids sont-ils attribués?

J'ai lu / téléchargé quelques diapositives de cours sur l' apprentissage avec approximation des fonctions. La plupart d'entre eux ont des diapositives sur la régression linéaire qui suivent. Comme ce ne sont que des diapositives, elles ont tendance à être incomplètes. Je me demande quelle est la connexion / relation entre les deux sujets. $Q-$

machine-learning feature-selection reinforcement-learning cgo
la source

L'approximation des fonctions est fondamentalement un problème de régression (au sens général, c'est-à-dire opposé à la classification où la classe est discrète), c'est-à-dire qu'on essaie d'apprendre un mappage de fonction de l'entrée (dans votre cas ) à une valeur réelle sortie . Étant donné que nous n'avons pas de tableau complet de toutes les valeurs d'entrée / sortie, mais apprenons et estimons en même temps, les paramètres (ici: les poids ) ne peuvent pas être calculés directement à partir des données. Une approche courante consiste à utiliser la descente en pente . $f(s,a)$ $Q(s,a)$ $Q(s,a)$ $w$

Voici l'algorithme général pour l'apprentissage de avec approximation de la fonction de valeur $Q(s,a)$

Init vector-paramètre au hasard (par exemple dans [0,1]) $w=(w_1,w_2,....,w_n)$
Pour chaque épisode:
1. $s\leftarrow$ état initial de l'épisode
2. $a\leftarrow$ action donnée par la stratégie (recommander: -greedy) $\pi$ $\epsilon$
3. Passez à l'action , observez la récompense et l'état suivant $a$ $r$ $s'$
4. $w\leftarrow w+ \alpha(r+\gamma * max_{a'}Q(s',a') - Q(s,a)) \vec\nabla_wQ(s,a)$
5. $s\leftarrow s'$
Répétez 2-5 jusqu'à ce que soit terminal $s$

où ...

$\alpha\in[0,1]$ est le taux d'apprentissage
$\gamma\in[0,1]$ est le taux d'actualisation
$max_{a'}Q(s',a')$ est l'action dans l'état maximisant $a'$ $s'$ $Q(s',a)$
$\vec\nabla_wQ(s,a)$ est le gradient de en . Dans votre cas linéaire, le gradient est simplement un vecteur $Q(s,a)$ $w$ $(f_1(s,a),...,f_n(s,a))$

La mise à jour des paramètres / poids (4ème étape) peut être lue de la manière suivante:

$(r+\gamma * max_a'Q(s',a')) - (Q(s,a))$ est l'erreur entre la prédiction et la valeur "réelle" de , qui est la récompense obtenue maintenant PLUS la récompense escomptée et actualisée suivant la politique gourmande par la suite $Q(s,a)$ $Q(s,a)$ $r$ $\gamma * max_a'Q(s',a')$
Ainsi, le paramètre / poids-vecteur est décalé dans la direction la plus raide (donnée par le gradient ) de la quantité de l'erreur mesurée, ajustée par . $\vec\nabla_wQ(s,a)$ $\alpha$

Source principale:

Chapitre 8 Valeur Approximation du livre (globalement recommandé) Reinforcement Learning: An Introduction de Sutton et Barto (première édition). L'algorithme général a été modifié car il est couramment utilisé pour calculer au lieu de . J'ai également supprimé les traces d'éligibilité pour me concentrer sur la descente de gradient, donc en utilisant uniquement des sauvegardes en une étape $Q(s,a)$ $V(s)$ $e$

Plus de références

Jouer à Atari avec Deep Reinforcement Learning par Mnih montre un excellent exemple pratique d'apprentissage avec des réseaux de neurones rétropropagiés (où Gradient Descent est incorporé dans l'algorithme de régression). $Q(s,a)$
Un bref aperçu de l' approximation de la fonction de valeur paramétrique par Geist et Pietquin. Semble prometteur, mais je ne l'ai pas encore lu.

steffen
la source

Lien brisé pour Barto & Sutton! Maintenant, ici -> incomplideas.net/book/the-book.html :) et comme ebook incomplideas.net/book/ebook mais je ne sais pas où trouver un fichier mobi

grisaitis

Le gradient de Q (s, a) n'est-il pas par rapport au vecteur colonne wa où chaque élément est fi (s, a), au lieu d'être la somme de tous les fi comme vous l'avez dit? L'objectif est que chaque poids soit modifié en fonction de la valeur de l'entité à laquelle il se multiplie.

Miguel Saraiva

@MiguelSaraiva Oui, corrigé. Merci beaucoup.

steffen

Comment ajuster les poids dans les valeurs Q avec approximation de la fonction linéaire

Réponses: