Je l' ai lu sur un certain nombre d'algorithmes pour la résolution des problèmes de bandit n armés comme -greedy, softmax et UCB1, mais je vais avoir quelques problèmes de tri par quelle approche est la meilleure pour réduire au minimum le regret.
Existe-t-il un algorithme optimal connu pour résoudre le problème des bandits à n bras? Existe-t-il un choix d'algorithme qui semble fonctionner le mieux dans la pratique?
Réponses:
Voici deux documents d'enquête que j'ai trouvés récemment. Je ne les ai pas encore lus, mais les résumés semblent prometteurs.
Vannorel et Mehryar Mohri de Joann: Algorithmes de bandit à plusieurs bras et évaluation empirique (2005)
Du résumé:
Volodymyr Kuleshov et Doina Precup: Algorithmes pour le problème des bandits multi-armés (2000) Extrait du résumé:
la source