Je suis tombé sur la formule pour obtenir les limites de confiance supérieures sur le problème des bandits armés de k:
où est la quantité d'échantillons que nous avons pour ce bandit particulier et est la quantité totale d'échantillons que nous avons de tous les bandits. Le même algorithme est également utilisé dans Monte Carlo Tree Search pour obtenir la borne de confiance supérieure.
Je comprends très clairement ce qu'est une limite de confiance supérieure, mais ce que je ne comprends pas, c'est d'où vient cette formule. J'ai essayé de chercher en ligne à plusieurs endroits, mais je n'ai pas pu trouver d'explication claire sur la façon dont cette formule est dérivée. Quelqu'un peut-il expliquer d'où vient cette formule? Veuillez supposer que je n'ai pas une grande expérience en statistiques.
la source
Réponses:
Ce que vous avez là-bas est communément appelé le terme d'exploration. La limite de confiance supérieure est la moyenne empirique plus ce terme d'exploration.
Examinons chaque terme séparément:
Pour une description plus technique, l'article d' Auer et al. est un bon point de départ.
la source
Elle provient de l'inégalité de Hoeffding, qui fournit une limite supérieure sur la probabilité que la somme des variables aléatoires indépendantes bornées s'écarte de sa valeur attendue de plus d'un certain montant. Voir https://en.wikipedia.org/wiki/Hoeffding%27s_inequality pour plus d'informations sur l'inégalité de Hoeffding. Voir le texte autour de l'équation (3) dans le document UCT original pour une discussion détaillée concernant ceci à UCB1 dans le réglage de bandit http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.102.1296
la source