Les bandits multi-bras fonctionnent bien dans une situation où vous avez le choix et vous ne savez pas lequel maximisera votre bien-être. Vous pouvez utiliser l'algorithme pour certaines situations réelles. À titre d'exemple, l'apprentissage peut être un bon domaine:
Si un enfant apprend la menuiserie et qu'il est mauvais dans ce domaine, l'algorithme lui dira qu'il / elle devrait probablement passer à autre chose. S'il est bon dans ce domaine, l'algorithme lui dira de continuer à apprendre ce domaine.
La datation est aussi un bon domaine:
Vous êtes un homme qui met beaucoup d'efforts pour poursuivre une femme. Cependant, vos efforts ne sont certainement pas les bienvenus. L'algorithme devrait vous pousser «légèrement» (ou fortement) à avancer.
Pour quelle autre situation réelle pouvons-nous utiliser l'algorithme de bandit multi-bras?
PS: Si la question est trop large, veuillez laisser un commentaire. S'il y a consensus, je retire ma question.
Réponses:
Lorsque vous jouez aux jeux Pokémon originaux (rouge ou bleu et jaune) et que vous arrivez à Celadon City, les machines à sous Team Rocket ont des cotes différentes. Bandit multi-bras là-bas si vous voulez optimiser l'obtention de ce Porygon très rapidement.
Sérieusement, les gens parlent du problème du choix des variables de réglage dans l'apprentissage automatique. Surtout si vous avez beaucoup de variables, l'exploration vs l'exploitation est discutée. Voir comme Spearmint ou même le nouveau document dans cette rubrique qui utilise un algorithme super simple pour choisir les paramètres de réglage (et surpasse de loin les autres techniques de variables de réglage)
la source
Ils peuvent être utilisés dans un cadre de conception de traitement / recherche biomédicale. Par exemple, je crois que les algorithmes d' apprentissage q sont utilisés dans les essais séquentiels, à affectations multiples et randomisés ( essais SMART ). En gros, l'idée est que le régime de traitement s'adapte de manière optimale aux progrès du patient. Il est clair que cela pourrait être le mieux pour un patient individuel, mais cela peut également être plus efficace dans les essais cliniques randomisés.
la source
Ils sont utilisés dans les tests A / B de la publicité en ligne, où différentes publicités sont affichées pour différents utilisateurs et en fonction des résultats, des décisions sont prises concernant les publicités à afficher à l'avenir. Ceci est décrit dans un bel article du chercheur Google Steven L. Scott .
la source
J'ai posé la même question sur Quora
Voici la réponse
la source