Imaginez la configuration suivante: vous avez 2 pièces, la pièce A qui est garantie d'être juste et la pièce B qui peut ou non être juste. On vous demande de faire 100 lancers de pièces, et votre objectif est de maximiser le nombre de têtes .
Votre information préalable sur la pièce B est qu'elle a été retournée 3 fois et a donné 1 tête. Si votre règle de décision était simplement basée sur la comparaison de la probabilité attendue des têtes des 2 pièces, vous retourneriez la pièce A 100 fois et vous en auriez fini. Cela est vrai même en utilisant des estimations bayésiennes raisonnables (moyennes postérieures) des probabilités, car vous n'avez aucune raison de croire que la pièce B rapporte plus de têtes.
Mais que se passe-t-il si la pièce B est réellement biaisée en faveur des têtes? Les «têtes potentielles» que vous abandonnez en retournant la pièce B à quelques reprises (et donc en obtenant des informations sur ses propriétés statistiques) seraient sûrement précieuses dans un certain sens et donc entreraient en ligne de compte dans votre décision. Comment décrire mathématiquement cette "valeur de l'information"?
Question: Comment construisez-vous mathématiquement une règle de décision optimale dans ce scénario?
la source
Réponses:
Bandit à bras multiples
Ceci est un cas particulier d'un problème de bandit multi-armé . Je dis un cas particulier parce que généralement nous ne connaissons aucune des probabilités des têtes (dans ce cas, nous savons que l'une des pièces a une probabilité de 0,5).
La question que vous soulevez est connue sous le nom de dilemme exploration vs exploitation : explorez-vous les autres options, ou restez-vous avec ce que vous pensez être le meilleur. Il existe une solution optimale immédiate en supposant que vous connaissiez toutes les probabilités : choisissez simplement la pièce avec la plus forte probabilité de gagner. Le problème, comme vous l'avez mentionné, est que nous ne savons pas quelles sont les véritables probabilités .
Il y a beaucoup de littérature sur le sujet, et il y a beaucoup d'algorithmes déterministes, mais depuis que vous avez tagué ce bayésien, j'aimerais vous parler de ma solution préférée personnelle: le bandit bayésien !
La solution Baysian Bandit
L'approche bayésienne de ce problème est très naturelle. Nous voulons répondre "Quelle est la probabilité que la pièce X soit la meilleure des deux?".
A priori , en supposant que nous n'avons pas encore observé de retournement de pièce, nous n'avons aucune idée de la probabilité que les têtes de la pièce B soient, dénotons ce inconnu . Nous devons donc attribuer une distribution uniforme préalable à cette probabilité inconnue. Alternativement, notre précédent (et postérieur) pour la pièce A est trivialement concentré entièrement à 1/2.pB
Comme vous l'avez indiqué, nous observons 2 queues et 1 têtes de la pièce B, nous devons mettre à jour notre distribution postérieure. En supposant un a priori uniforme, et les flips sont des flips de Bernoulli, notre postérieur est un . En comparant les distributions postérieures ou A et B maintenant:B e t a ( 1 + 1 , 1 + 2 )
Trouver une stratégie approximativement optimale
Maintenant que nous avons les postérieurs, que faire? Nous sommes intéressés à répondre "Quelle est la probabilité que la pièce B soit la meilleure des deux" (rappelez-vous de notre point de vue bayésien, bien qu'il y ait une réponse définitive à laquelle on est meilleur, nous ne pouvons parler qu'en probabilités):
Ce schéma s'auto-met également à jour. Lorsque nous observons le résultat du choix de la pièce B, nous mettons à jour notre postérieur avec ces nouvelles informations, puis sélectionnons à nouveau. De cette façon, si la pièce B est vraiment mauvaise, nous la choisirons moins, et cette pièce B est en fait vraiment bonne, nous la choisirons plus souvent. Bien sûr, nous sommes Bayésiens, donc nous ne pouvons jamais être absolument sûrs que la pièce B est meilleure. Le choix probabiliste comme celui-ci est la solution la plus naturelle au dilemme exploration-exploitation.
Il s'agit d'un exemple particulier d' échantillonnage de Thompson . Plus d' informations et des applications fraîches à la publicité en ligne, se trouvent dans le document de recherche de Google et le document de recherche de Yahoo . J'adore ce truc!
la source
Il s'agit d'un cas simple d'un problème de bandit à plusieurs bras . Comme vous le constatez, vous souhaitez équilibrer les informations que vous collectez en essayant la pièce inconnue lorsque vous pensez qu'elle n'est pas optimale à court terme par rapport à l'exploitation des connaissances que vous avez.
En général, je pense que vous ne pouvez pas échapper à un problème de programmation dynamique, bien qu'il puisse y avoir des cas particuliers où la stratégie optimale peut être trouvée et vérifiée plus simplement.
Avec un uniforme avant, voici où vous devez vous arrêter:
J'ai utilisé le code Mathematica suivant pour calculer les actions:
À titre de comparaison, l'heuristique d'échantillonnage de Thompson (qui, selon Cam Davidson Pilon, est optimale) donne une moyenne de 60,2907 têtes, en baisse de 1,03915. L'échantillonnage de Thompson a le problème qu'il échantillonne parfois B lorsque vous avez suffisamment d'informations pour savoir que ce n'est pas un bon pari, et qu'il gaspille souvent les chances d'échantillonner B tôt, lorsque l'information vaut le plus. Dans ce type de problème, vous n'êtes presque jamais indifférent entre vos options, et il existe une stratégie optimale pure.
la source