Dans quel genre de situations réelles pouvons-nous utiliser un algorithme de bandit multi-bras?

15

Les bandits multi-bras fonctionnent bien dans une situation où vous avez le choix et vous ne savez pas lequel maximisera votre bien-être. Vous pouvez utiliser l'algorithme pour certaines situations réelles. À titre d'exemple, l'apprentissage peut être un bon domaine:

Si un enfant apprend la menuiserie et qu'il est mauvais dans ce domaine, l'algorithme lui dira qu'il / elle devrait probablement passer à autre chose. S'il est bon dans ce domaine, l'algorithme lui dira de continuer à apprendre ce domaine.

La datation est aussi un bon domaine:

Vous êtes un homme qui met beaucoup d'efforts pour poursuivre une femme. Cependant, vos efforts ne sont certainement pas les bienvenus. L'algorithme devrait vous pousser «légèrement» (ou fortement) à avancer.

Pour quelle autre situation réelle pouvons-nous utiliser l'algorithme de bandit multi-bras?

PS: Si la question est trop large, veuillez laisser un commentaire. S'il y a consensus, je retire ma question.

Andy K
la source
3
Étant donné qu'il y a 3 réponses votées (jusqu'à présent), je ne pense pas que ce soit trop large pour pouvoir répondre.
gung - Rétablir Monica
@gung J'ai plus de votes positifs et pourtant, ils ne sont pas reflétés dans mon score. Comment venir?
Andy K
5
C'est parce que ce fil est le wiki communautaire (CW), @AndyK. Lorsqu'un thread est CW, les gens n'obtiennent pas la réputation des votes positifs (ou ne la perdent pas des votes négatifs). Vous gagneriez des badges comme d'habitude, cependant. Des questions comme celle-ci qui sollicitent des listes de choses et où il n'y a pas une seule réponse claire et correcte sont censées être hors sujet sur les sites SE. Notre compromis (je crois que d'autres sites le font aussi) est de permettre de telles questions au cas par cas, mais de les faire CW.
gung - Rétablir Monica
assez juste @gung
Andy K
1
admissions au collège. Sélection de métriques pour la sélection des receveurs des organes donnés.
EngrStudent

Réponses:

8

Lorsque vous jouez aux jeux Pokémon originaux (rouge ou bleu et jaune) et que vous arrivez à Celadon City, les machines à sous Team Rocket ont des cotes différentes. Bandit multi-bras là-bas si vous voulez optimiser l'obtention de ce Porygon très rapidement.

Sérieusement, les gens parlent du problème du choix des variables de réglage dans l'apprentissage automatique. Surtout si vous avez beaucoup de variables, l'exploration vs l'exploitation est discutée. Voir comme Spearmint ou même le nouveau document dans cette rubrique qui utilise un algorithme super simple pour choisir les paramètres de réglage (et surpasse de loin les autres techniques de variables de réglage)

www3
la source
6

Ils peuvent être utilisés dans un cadre de conception de traitement / recherche biomédicale. Par exemple, je crois que les algorithmes d' apprentissage q sont utilisés dans les essais séquentiels, à affectations multiples et randomisés ( essais SMART ). En gros, l'idée est que le régime de traitement s'adapte de manière optimale aux progrès du patient. Il est clair que cela pourrait être le mieux pour un patient individuel, mais cela peut également être plus efficace dans les essais cliniques randomisés.

gung - Rétablir Monica
la source
Merci @gung. Je ne connaissais pas cet algorithme. Je vais y lire
Andy K
2

J'ai posé la même question sur Quora

Voici la réponse

  • Affectation de financements aux différents départements d'une organisation

  • Choisir les athlètes les plus performants d'un groupe d'étudiants avec un temps limité et un seuil de sélection arbitraire

  • Maximiser les revenus du site Web tout en testant simultanément de nouvelles fonctionnalités (au lieu des tests A / B) Vous pouvez les utiliser à tout moment pour optimiser les résultats lorsque vous ne disposez pas de suffisamment de données pour créer un modèle statistique rigoureux.

Andy K
la source