En robotique, la technique d'apprentissage par renforcement est utilisée pour trouver le modèle de contrôle d'un robot. Malheureusement, la plupart des méthodes de gradient politique sont biaisées statistiquement, ce qui pourrait mettre le robot dans une situation dangereuse, voir page 2 dans Jan Peters et Stefan Schaal: Renforcement de l'apprentissage des habiletés motrices avec des gradients politiques, 2008
Avec l'apprentissage moteur primitif, il est possible de surmonter le problème car l'optimisation des paramètres de gradient de politique dirige les étapes d'apprentissage vers l'objectif.
citation: «Si l'estimation du gradient est impartiale et que les taux d'apprentissage atteignent la somme (a) = 0, le processus d'apprentissage est garanti de converger vers au moins un minimum local [...] Par conséquent, nous devons estimer le gradient politique uniquement à partir des données générées lors de l'exécution d'une tâche. »(Page 4 du même article)
Dans les devoirs pour le problème 1 de la classe Berkeley RL , il vous demande de montrer que le gradient de politique est toujours non biaisé si la ligne de base soustraite est une fonction de l'état au pas de temps t.
J'ai du mal à savoir quelle pourrait être la première étape d'une telle preuve. Quelqu'un peut me diriger dans la bonne direction? Ma pensée initiale était d'utiliser en quelque sorte la loi de l'espérance totale pour subordonner l'attente de b (st) à T, mais je ne suis pas sûr. Merci d'avance :)
la source
Réponses:
En utilisant la loi des attentes répétées, on a:
écrit avec des intégrales et en déplaçant le gradient à l'intérieur (linéarité) vous obtenez
vous pouvez maintenant déplacer (en raison de la linéarité) et (ne dépend pas de ) former l'intégrale intérieure à l'extérieur:∇θ b(st) at
Maintenant , ce qui conclut la preuve.∇θ1=0
la source
Il semble que les devoirs étaient dus deux jours avant la rédaction de cette réponse, mais dans le cas où ils sont toujours pertinents d'une manière ou d'une autre, les notes de classe pertinentes (qui auraient été utiles si elles avaient été fournies dans la question avec les devoirs) sont ici .
La première instance d'attente placée sur l'étudiant est: "Veuillez montrer l'équation 12 en utilisant la loi des attentes itérées, brisant en découplant l'action d'état marginal du reste de la trajectoire. " L'équation 12 est la suivante.Eτ∼pθ(τ)
Les notes de classe identifient comme marginal d'action d'état. Ce n'est pas une preuve recherchée, mais une séquence d'étapes algébriques pour effectuer le découplage et montrer dans quelle mesure l'indépendance du marginal action-État peut être atteinte.πθ(at|st)
Cet exercice est une préparation pour la prochaine étape des devoirs et se fonde uniquement sur l'examen du CS189, le cours d'introduction à l'apprentissage automatique de Burkeley, qui ne contient pas la loi de l'attente totale dans son programme ou ses notes de classe.
Toutes les informations pertinentes sont dans le lien ci-dessus pour les notes de classe et ne nécessitent que l'algèbre intermédiaire.
la source