Quelle est la relation entre la théorie des jeux et l'apprentissage par renforcement?

11

Je suis intéressé par (Deep) Reinforcement Learning (RL) . Avant de plonger dans ce domaine, dois-je suivre un cours de théorie des jeux (GT) ?

Quel est le lien entre GT et RL ?

Kiuhnm
la source
2
Ils sont à peu près aussi proches que les marteaux et la crème fouettée. Vous pouvez probablement trouver un problème où vous pouvez utiliser les deux, mais ce n'est pas courant.
Don Reba
4
@DonReba Pas selon deux chercheurs bien connus de l'apprentissage par renforcement: udacity.com/course/… Je pense que la théorie des jeux vous dit quelle est la politique optimale, tandis que RL vous explique comment les agents peuvent apprendre l'optimum ou une bonne politique.
Kiuhnm
3
@DonReba, peut-être en termes de contenu habituel qui y est enseigné. Cependant, les objectifs des deux champs ne sont pas si différents. L'apprentissage par renforcement pourrait être considéré comme un jeu d'informations imparfaites, souvent pour un seul joueur. Ou comme un jeu à deux joueurs dans lequel l'autre joueur, la nature, suit un ensemble de règles que vous souhaitez découvrir.
conjectures
1
C'était éducatif. :)
Don Reba

Réponses:

12

Dans l'apprentissage par renforcement (RL), il est courant d'imaginer un processus décisionnel de Markov sous-jacent (MDP). Ensuite, l'objectif de RL est d'apprendre une bonne politique pour le MDP, qui n'est souvent que partiellement spécifiée. Les MDP peuvent avoir différents objectifs tels que la récompense totale, moyenne ou actualisée, où la récompense actualisée est l'hypothèse la plus courante pour RL. Il existe des extensions bien étudiées des MDP aux paramètres à deux joueurs (c'est-à-dire le jeu); voir, par exemple,

Filar, Jerzy et Koos Vrieze. Processus décisionnels compétitifs de Markov . Springer Science & Business Media, 2012.

Il existe une théorie sous-jacente partagée par les MDP et leurs extensions aux jeux à deux joueurs (somme nulle), y compris, par exemple, le théorème de Banach à point fixe, l'itération de la valeur, l'optimalité de Bellman, l'itération des politiques / l'amélioration de la stratégie, etc. ces liens étroits entre les MDP (et donc RL) et ces types de jeux spécifiques:

  • vous pouvez en apprendre davantage sur RL (et MDP) directement, sans GT comme condition préalable;
  • de toute façon, vous ne vous renseigneriez pas sur ce genre de choses dans la majorité des cours de GT (qui seraient normalement axés sur, par exemple, la forme stratégique, la forme étendue et les jeux répétés, mais pas les jeux infinis basés sur l'état qui généralisent les MDP).
Rahul Savani
la source
0

RL: Un seul agent est formé pour résoudre un problème de décision de Markov (MDPS). GT: Deux agents sont formés pour résoudre les jeux. Un apprentissage par renforcement multi-agents (MARL) peut être utilisé pour résoudre des jeux stochastiques.

Si vous êtes intéressé par l'application mono-agent de RL dans l'apprentissage en profondeur, vous n'avez pas besoin de suivre un cours GT. Pour deux ou plusieurs agents, vous devrez peut-être connaître les techniques de la théorie des jeux.

Khalid Ibrahim
la source