Qu'est-ce que l'apprentissage par renforcement récurrent

20

Je suis récemment tombé sur le mot «apprentissage par renforcement récurrent». Je comprends ce qu'est un «réseau neuronal récurrent» et ce qu'est un «apprentissage par renforcement», mais je n'ai pas trouvé beaucoup d'informations sur ce qu'est un «apprentissage par renforcement récurrent».

Quelqu'un peut-il m'expliquer ce qu'est un «apprentissage par renforcement récurrent» et quelle est la différence entre «apprentissage par renforcement récurrent» et «apprentissage par renforcement» normal comme l'algorithme Q-Learning.

Zéro négatif
la source

Réponses:

15

Qu'est-ce qu'un "apprentissage par renforcement récurrent"?

L'apprentissage par renforcement récurrent ( RRL ) a été introduit pour la première fois pour la formation des systèmes d'échange de réseaux de neurones en 1996. «Récurrent» signifie que les résultats précédents sont introduits dans le modèle en tant qu'éléments d'entrée. Il a rapidement été étendu à la négociation sur un marché FX.

La technique RRL s'est avérée être une technique d'apprentissage automatique réussie pour la construction de systèmes de négociation financière.

Quelle est la différence entre "l'apprentissage par renforcement récurrent" et "l'apprentissage par renforcement" normal (comme l'algorithme Q-Learning)?

Le RRL diffère clairement de l'approche programmation dynamique et algorithmes de renforcement tels que TD-apprentissage et Q-learning , qui tentent d'estimer une fonction de valeur pour le problème de contrôle.

Le cadre RRL permet de créer une représentation de problème simple et élégante, évite la malédiction de Bellman de la dimensionnalité et offre des avantages convaincants en termes d'efficacité:

RRL produit naturellement des actions à valeur réelle (pondérations de portefeuille) sans recourir à la méthode de discrétisation dans le Q-learning .

RRL a des performances plus stables par rapport à l' apprentissage Q lorsqu'il est exposé à des ensembles de données bruyants. L' algorithme d' apprentissage Q est plus sensible à la sélection de la fonction de valeur (peut-être) en raison de la propriété récursive de l'optimisation dynamique, tandis que l' algorithme RRL est plus flexible dans le choix de la fonction objective et le gain de temps de calcul.

U()

Ici , vous trouverez une implémentation Matlab de l'algorithme de RRL.


Les références

Apprentissage par renforcement pour le trading

Apprentissage par renforcement pour les systèmes et portefeuilles de négociation

Trading FX via l'apprentissage par renforcement récurrent

Négociation d'actions avec apprentissage par renforcement récurrent (RRL)

Commerce d'algorithmes utilisant Q-Learning et l'apprentissage par renforcement récurrent

EXPLORER LES ALGORITHMES POUR LE TRADING FX AUTOMATISÉ - CONSTRUIRE UN MODÈLE HYBRIDE

Anton Danilov
la source
@AntonDanilov Je ne sais pas si vous en êtes conscient. Le gars qui a eu cette idée (votre première référence, J Moody) gère un fonds utilisant cet algo - et sa performance est loin d'être spectaculaire.
horaceT
Donc, bon à savoir mais comment cela répond à Changgemy
Anton Danilov
2

La distinction de RL récurrent (profond) est que la fonction mappant les observations des agents à son action de sortie est un réseau neuronal récurrent.

Un réseau neuronal récurrent est un type de réseau neuronal qui traite chaque observation de manière séquentielle, de la même manière pour chaque pas de temps.

Document original: Q-Learning récurrent profond pour les PDM partiellement observables

LearnOPhile
la source