Je travaille sur un problème de bandit à plusieurs bras où nous n'avons aucune information sur la distribution des récompenses.
J'ai trouvé de nombreux articles qui garantissent des bornes de regret pour une distribution avec borne connue, et pour des distributions générales avec support dans [0,1].
Je voudrais savoir s'il existe un moyen de bien performer dans un environnement où la distribution des récompenses n'a aucune garantie quant à son support. J'essaie de calculer une limite de tolérance non paramétrique et d'utiliser ce nombre pour mettre à l'échelle la distribution des récompenses afin que je puisse utiliser l'algorithme 2 spécifié sur ce document ( http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf ). Est-ce que quelqu'un pense que cette approche fonctionnera?
Sinon, quelqu'un peut-il me diriger au bon endroit?
Merci beaucoup!
la source