Questions marquées «q-learning»

18

Pourquoi Q-Learning utilise epsilon-greedy pendant les tests?

Dans l'article de DeepMind sur Deep Q-Learning pour les jeux vidéo Atari ( ici ), ils utilisent une méthode epsilon-greedy pour l'exploration pendant la formation. Cela signifie que lorsqu'une action est sélectionnée pendant l'entraînement, elle est choisie soit comme action avec la valeur q la...

17

Pourquoi la lettre Q a-t-elle été choisie dans Q-learning?

Pourquoi la lettre Q a été choisie au nom de Q-learning? La plupart des lettres sont choisies comme abréviation, comme pour politique et v pour valeur. Mais je ne pense pas que Q soit l'abréviation d'un

terminology reinforcement-learning history q-learning

14

Quelle est la différence entre l'épisode et l'époque dans l'apprentissage Q profond?

J'essaie de comprendre le célèbre article "Jouer à Atari avec l'apprentissage par renforcement profond" ( pdf ). Je ne suis pas clair sur la différence entre une époque et un épisode . Dans l'algorithme , la boucle externe est sur des épisodes , tandis que sur la figure l'axe des x est étiqueté...

neural-networks terminology reinforcement-learning q-learning

11

Comment calculer exactement la fonction de perte Deep Q-Learning?

J'ai un doute sur la formation exacte de la fonction de perte d'un réseau Deep Q-Learning. J'utilise un réseau feedforward à 2 couches avec une couche de sortie linéaire et des couches cachées relu. Supposons que j'ai 4 actions possibles. Ainsi, la sortie de mon réseau pour l'état actuelststs_t est...

least-squares deep-learning loss-functions reinforcement-learning q-learning

9

Quelle est l'efficacité de Q-learning avec les réseaux de neurones quand il y a une unité de sortie par action?

Contexte: J'utilise l'approximation de la valeur Q du réseau neuronal dans ma tâche d'apprentissage par renforcement. L'approche est exactement la même que celle décrite dans cette question , mais la question elle-même est différente. Dans cette approche, le nombre de sorties est le nombre...

machine-learning neural-networks reinforcement-learning q-learning

9

Comment interpréter une courbe de survie du modèle de risque de Cox?

Comment interprétez-vous une courbe de survie à partir du modèle de risque proportionnel cox? Dans cet exemple de jouet, supposons que nous ayons un modèle de risque proportionnel cox sur agevariable dans les kidneydonnées et générons la courbe de survie. library(survival) fit <-...

r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

9

Apprentissage par renforcement dans un environnement non stationnaire [fermé]

Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement les réponses. Vous souhaitez améliorer cette question? Mettez à jour la question pour qu'elle se concentre sur un seul problème en modifiant ce post . Fermé il y a 8 jours . Q1: Existe-t-il des méthodes communes ou...

markov-process reinforcement-learning stationarity q-learning

9

Vue d'ensemble des algorithmes d'apprentissage par renforcement

Je recherche actuellement un aperçu des algorithmes d'apprentissage par renforcement et peut-être une classification de ceux-ci. Mais à côté de Sarsa et Q-Learning + Deep Q-Learning, je ne trouve pas vraiment d'algorithmes populaires. Wikipedia me donne un aperçu des différentes méthodes générales...

reinforcement-learning q-learning

8

Pourquoi il n'y a pas de probabilité de transition dans Q-Learning (apprentissage par renforcement)?

Dans l'apprentissage par renforcement, notre objectif est d'optimiser la fonction état-valeur ou l'action-valeur, qui sont définies comme suit: Vπs= ∑ p (s′| s,π( s ) ) [ r (s′| s,π( s ) ) + γVπ(s′) ] =Eπ[ r (s′| s,a)+γVπ(s′) |s0= s

reinforcement-learning q-learning