Pourquoi la lettre Q a-t-elle été choisie dans Q-learning?

17

Pourquoi la lettre Q a été choisie au nom de Q-learning?

La plupart des lettres sont choisies comme abréviation, comme pour politique et v pour valeur. Mais je ne pense pas que Q soit l'abréviation d'un mot.πv

dessiner
la source
1
Dans ma compréhension métaphorique, Q est une fonction qui associe une quantité (appelez-la récompense, coût ou tout ce qui est optimisé) pour une action dans un état donné.
2018
1
@sycorax la question originale formulée impliquait une compréhension du Q-learning et afin d'offrir une explication, il serait utile d'ajouter du contexte. Le PO serait perdu avec toute explication sans établir de mise à la terre.
knk
La métaphorique Q = Quantité aide-t-elle? Je pense que c'est une quantification de l'action donnée aux états
knk

Réponses:

35

Je suis désolé de décevoir tout le monde, mais Q ne représente rien :)

Le Q-learning a été proposé par Watkins dans sa thèse de doctorat en 1989, voir p.96. Le Q dans l'équation sur cette page est mis à jour d'une certaine manière à chaque étape. Le Q est le retour attendu de l'action à un état donné, voir la définition de Q p.46. Le rendement est au sens économique ou de la théorie des jeux, c'est-à-dire des récompenses pondérées en fonction de la probabilité actualisée, et non d'un terme informatique comme un rendement d'une fonction.

Remarquez comment il a déjà utilisé P pour la probabilité et R pour la récompense, alors il a saisi Q pour le retour. C'est ça. Il n'y a pas de sens plus profond pour le choix d'une lettre Q.

Aksakal
la source
3
Pas de sens profond , mais il est un sens (que Q fits avec P et R dans l'alphabet) et est synonyme de quelque chose .
Sextus Empiricus
2
@MartijnWeterings Ce n'est pas du tout un sens. C'est un choix purement syntaxique de lettre, sans aucune considération sémantique.
David Richerby
Bien sûr, il peut y avoir peu de considérations sémantiques (et cela pourrait être débattu parce que les différences entre les lettres latines ou grecques, les lettres à différentes positions de l'alphabet, ou les majuscules par rapport aux minuscules peuvent former une zone grise entre la syntaxe et la sémantique). Je considère le choix de Q comme «significatif» parce que la forme de la lettre (qui est quelque peu arbitraire) exprime dans une certaine mesure la signification de la variable / paramètre. Le sens se rapporte au choix de la lettre. Il n'y aurait pas eu de bon choix lorsque u ou v aurait été choisi, ou i, j, k ou x, y, z ou . α,β,γ
Sextus Empiricus
@MartijnWeterings, Q sonne également comme une file d'attente , ce qui apporte également des connotations quelque peu pertinentes
Aksakal
QiRiPiiViPif g hx yV U
Sextus Empiricus
0

Q(st,at)Q(st,at)+α(rt+γ×maxaQ(st+1,a)Q(st,at))

Q

Ameet Deshpande
la source
2
Lisez cette thèse et dites-moi comment la "qualité" prend tout son sens dans le contexte du retour attendu
Aksakal
Bien que je sois d'accord avec vous, la thèse a été écrite après que Watkins a consulté Andy sur un certain nombre de choses. Andy a peut-être eu une meilleure idée que vous ne le pensez.
Ameet Deshpande
La qualité n'existe même pas en tant que concept distinct dans l'apprentissage. Vous pouvez bien sûr utiliser le mot dans son sens habituel de l'anglais. Le rendement attendu, en revanche, est très bien défini dans la théorie des jeux, il n'est pas nécessaire de le diluer en y associant des concepts vagues tels que la qualité. Vous ne maximisez pas la qualité, vous maximisez les récompenses à prix réduit sous la mesure de probabilité appropriée. Si vous voulez être un peu plus large, vous pouvez maximiser l'utilité.
Aksakal