Qu'est-ce qu'un "apprentissage par renforcement récurrent"?
L'apprentissage par renforcement récurrent ( RRL ) a été introduit pour la première fois pour la formation des systèmes d'échange de réseaux de neurones en 1996. «Récurrent» signifie que les résultats précédents sont introduits dans le modèle en tant qu'éléments d'entrée. Il a rapidement été étendu à la négociation sur un marché FX.
La technique RRL s'est avérée être une technique d'apprentissage automatique réussie pour la construction de systèmes de négociation financière.
Quelle est la différence entre "l'apprentissage par renforcement récurrent" et "l'apprentissage par renforcement" normal (comme l'algorithme Q-Learning)?
Le RRL diffère clairement de l'approche programmation dynamique et algorithmes de renforcement tels que TD-apprentissage et Q-learning , qui tentent d'estimer une fonction de valeur pour le problème de contrôle.
Le cadre RRL permet de créer une représentation de problème simple et élégante, évite la malédiction de Bellman de la dimensionnalité et offre des avantages convaincants en termes d'efficacité:
RRL produit naturellement des actions à valeur réelle (pondérations de portefeuille) sans recourir à la méthode de discrétisation dans le Q-learning .
RRL a des performances plus stables par rapport à l' apprentissage Q lorsqu'il est exposé à des ensembles de données bruyants. L' algorithme d' apprentissage Q est plus sensible à la sélection de la fonction de valeur (peut-être) en raison de la propriété récursive de l'optimisation dynamique, tandis que l' algorithme RRL est plus flexible dans le choix de la fonction objective et le gain de temps de calcul.
U( )
Ici , vous trouverez une implémentation Matlab de l'algorithme de RRL.
Les références
Apprentissage par renforcement pour le trading
Apprentissage par renforcement pour les systèmes et portefeuilles de négociation
Trading FX via l'apprentissage par renforcement récurrent
Négociation d'actions avec apprentissage par renforcement récurrent (RRL)
Commerce d'algorithmes utilisant Q-Learning et l'apprentissage par renforcement récurrent
EXPLORER LES ALGORITHMES POUR LE TRADING FX AUTOMATISÉ - CONSTRUIRE UN MODÈLE HYBRIDE
La distinction de RL récurrent (profond) est que la fonction mappant les observations des agents à son action de sortie est un réseau neuronal récurrent.
Un réseau neuronal récurrent est un type de réseau neuronal qui traite chaque observation de manière séquentielle, de la même manière pour chaque pas de temps.
Document original: Q-Learning récurrent profond pour les PDM partiellement observables
la source