L'UCB est en effet presque optimal dans le cas stochastique (jusqu'à un facteur log T pour un jeu de round T), et jusqu'à un écart dans l'inégalité de Pinsker dans un sens plus dépendant du problème. Un article récent d' Audibert et Bubeck supprime cette dépendance au journal dans le pire des cas, mais a une pire limite dans le cas favorable lorsque différentes armes ont des récompenses bien séparées.
En général, UCB est un candidat d'une plus grande famille d'algorithmes. À tout moment du jeu, vous pouvez regarder tous les bras qui ne sont pas "disqualifiés", c'est-à-dire dont la borne de confiance supérieure n'est pas inférieure à la borne de confiance inférieure d'un bras. Le prélèvement basé sur toute distribution d'armes qualifiées constitue une stratégie valable et suscite un regret similaire jusqu'aux constantes.
Empiriquement, je ne pense pas qu'il y ait eu une évaluation significative de nombreuses stratégies différentes, mais je pense que UCB est souvent assez bon.
La plupart des recherches les plus récentes ont porté sur l'extension des problèmes de bandits au-delà du simple cadre armé en K avec des récompenses stochastiques, à de très grands espaces d'action (ou infinis), avec ou sans informations secondaires, et sous rétroaction stochastique ou contradictoire. Il y a également eu des travaux dans des scénarios où les critères de performance sont différents (comme l'identification du meilleur bras uniquement).