Questions marquées «reinforcement-learning»

12

Quand les méthodes de Monte-Carlo sont-elles préférées aux différences temporelles?

J'ai fait beaucoup de recherches récemment sur l'apprentissage par renforcement. J'ai suivi l' apprentissage par renforcement de Sutton & Barto : une introduction pour la plupart de cela. Je sais ce que sont les processus de décision de Markov et comment l'apprentissage par programmation...

monte-carlo reinforcement-learning temporal-difference

12

Comment ajuster les poids dans les valeurs Q avec approximation de la fonction linéaire

Dans l'apprentissage par renforcement, l'approximation de fonction linéaire est souvent utilisée lorsque de grands espaces d'états sont présents. (Lorsque les tables de recherche deviennent irréalisables.) La forme de la valeur avec approximation de la fonction linéaire est donnée parQ -Q−Q- Q ( s...

machine-learning feature-selection reinforcement-learning

12

Pourquoi l'expérience de relecture nécessite un algorithme hors stratégie?

Dans le document présentant DQN " Jouer à Atari avec l'apprentissage par renforcement profond ", il mentionnait: Notez que lors de l'apprentissage par rejeu d'expérience, il est nécessaire d'apprendre hors politique (car nos paramètres actuels sont différents de ceux utilisés pour générer...

reinforcement-learning

12

Traduire un problème d'apprentissage automatique dans un cadre de régression

Supposons que j'ai un panel de variables explicatives , pour , , ainsi qu'un vecteur de variables binaires dépendantes du résultat . Donc n'est observé qu'au moment final et pas à un moment antérieur. Le cas tout à fait général est d'avoir plusieurs pour pour chaque unité à chaque instant , mais...

regression machine-learning reinforcement-learning

11

Quelle est la relation entre la théorie des jeux et l'apprentissage par renforcement?

Je suis intéressé par (Deep) Reinforcement Learning (RL) . Avant de plonger dans ce domaine, dois-je suivre un cours de théorie des jeux (GT) ? Quel est le lien entre GT et RL

deep-learning reinforcement-learning game-theory

11

Quelle est la politique de déploiement dans le document d'AlphaGo?

Le papier est ici . La politique de déploiement ... est une politique de softmax linéaire basée sur des fonctionnalités rapides, calculées de manière incrémentielle et basées sur des modèles locaux ... Je ne comprends pas ce qu'est la politique de déploiement et comment elle est liée au réseau de...

machine-learning monte-carlo reinforcement-learning games

11

Q-learning avec Neural Network comme approximation de fonction

J'essaie d'utiliser un réseau neuronal afin d'approximer la valeur Q dans l'apprentissage Q comme dans les questions sur l'apprentissage Q à l'aide des réseaux de neurones . Comme suggéré dans la première réponse, j'utilise une fonction d'activation linéaire pour la couche de sortie, tandis que...

neural-networks reinforcement-learning

11

Comment calculer exactement la fonction de perte Deep Q-Learning?

J'ai un doute sur la formation exacte de la fonction de perte d'un réseau Deep Q-Learning. J'utilise un réseau feedforward à 2 couches avec une couche de sortie linéaire et des couches cachées relu. Supposons que j'ai 4 actions possibles. Ainsi, la sortie de mon réseau pour l'état actuelststs_t est...

least-squares deep-learning loss-functions reinforcement-learning q-learning

10

Un modèle de P (Y | X) peut-il être formé par descente de gradient stochastique à partir d'échantillons non iid de P (X) et d'iid échantillons de P (Y | X)?

Lors de la formation d'un modèle paramétré (par exemple pour maximiser la probabilité) par descente de gradient stochastique sur certains ensembles de données, il est communément supposé que les échantillons d'apprentissage sont tirés de la distribution des données d'apprentissage. Donc, si...

machine-learning conditional-probability reinforcement-learning gradient-descent

10

Pourquoi l'algorithme d'itération de politique converge-t-il vers une fonction de politique et de valeur optimale?

Je lisais les notes de cours d' Andrew Ng sur l'apprentissage par renforcement et j'essayais de comprendre pourquoi l'itération des politiques convergeait vers la fonction de valeur optimale et la politique optimale .V∗V∗V^*π∗π∗\pi^* L'itération de la politique de rappel est:...

reinforcement-learning policy-iteration

9

Pourquoi (et quand) faut-il apprendre la fonction de récompense à partir d'échantillons dans l'apprentissage par renforcement?

Dans l'apprentissage par renforcement, nous avons une fonction de récompense qui informe l'agent de la qualité de ses actions et états actuels. Dans un cadre général, la fonction de récompense est fonction de trois variables: État actuelSSS Action en cours à l'état actuelπ(s)=aπ(s)=a\pi(s) = a...

machine-learning reinforcement-learning

9

Vue d'ensemble des algorithmes d'apprentissage par renforcement

Je recherche actuellement un aperçu des algorithmes d'apprentissage par renforcement et peut-être une classification de ceux-ci. Mais à côté de Sarsa et Q-Learning + Deep Q-Learning, je ne trouve pas vraiment d'algorithmes populaires. Wikipedia me donne un aperçu des différentes méthodes générales...

reinforcement-learning q-learning

9

Apprentissage par renforcement dans un environnement non stationnaire [fermé]

Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement les réponses. Vous souhaitez améliorer cette question? Mettez à jour la question pour qu'elle se concentre sur un seul problème en modifiant ce post . Fermé il y a 8 jours . Q1: Existe-t-il des méthodes communes ou...

markov-process reinforcement-learning stationarity q-learning

9

Apprentissage par renforcement sur des données historiques

J'ai travaillé sur l'apprentissage de la politique optimale de communication pour les clients (quelles notifications envoyer, combien envoyer et quand envoyer). J'ai des données historiques des notifications passées envoyées (avec des horodatages) et leurs performances. J'essayais d'appliquer RL à...

reinforcement-learning

9

Comment interpréter une courbe de survie du modèle de risque de Cox?

Comment interprétez-vous une courbe de survie à partir du modèle de risque proportionnel cox? Dans cet exemple de jouet, supposons que nous ayons un modèle de risque proportionnel cox sur agevariable dans les kidneydonnées et générons la courbe de survie. library(survival) fit <-...

r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

9

Un exemple de code d'algorithme REINFORCE proposé par Williams?

Est-ce que quelqu'un connaît l'exemple d'un algorithme Williams proposé dans l'article "Une classe d'algorithmes d'estimation de gradient pour l'apprentissage par renforcement dans les réseaux de neurones"

reinforcement-learning

9

Quelle est l'efficacité de Q-learning avec les réseaux de neurones quand il y a une unité de sortie par action?

Contexte: J'utilise l'approximation de la valeur Q du réseau neuronal dans ma tâche d'apprentissage par renforcement. L'approche est exactement la même que celle décrite dans cette question , mais la question elle-même est différente. Dans cette approche, le nombre de sorties est le nombre...

machine-learning neural-networks reinforcement-learning q-learning

8

Une politique est-elle toujours déterministe dans l'apprentissage par renforcement?

Dans l'apprentissage par renforcement, une politique est-elle toujours déterministe ou est-ce une distribution de probabilité sur les actions (à partir desquelles nous échantillonnons)? Si la politique est déterministe, pourquoi pas la fonction valeur, qui est définie à un état donné pour une...

reinforcement-learning deterministic-policy stochastic-policy

8

Pourquoi il n'y a pas de probabilité de transition dans Q-Learning (apprentissage par renforcement)?

Dans l'apprentissage par renforcement, notre objectif est d'optimiser la fonction état-valeur ou l'action-valeur, qui sont définies comme suit: Vπs= ∑ p (s′| s,π( s ) ) [ r (s′| s,π( s ) ) + γVπ(s′) ] =Eπ[ r (s′| s,a)+γVπ(s′) |s0= s

reinforcement-learning q-learning

8

Différence entre la programmation dynamique et l'apprentissage par différence temporelle dans l'apprentissage par renforcement

Dans l'apprentissage par renforcement, quelle est la différence entre la programmation dynamique et l'apprentissage par différence

reinforcement-learning