Complexité des jeux d'informations partielles à états finis

12

Étant donné un jeu déterministe à somme partielle et à informations partielles avec seulement un nombre fini d'états,
dont les résultats possibles sont [perdre, dessiner, gagner] avec des valeurs [-1,0, + 1] respectivement,
quelle est la complexité de l'approximation de la valeur de tels un jeu additivement dans ?ϵ

En particulier, je ne peux trouver aucun algorithme pour le faire.
Le reste de cet article est entièrement consacré à donner une description plus approfondie
du problème, donc si vous pouvez déjà comprendre ce que signifie la question en haut
de cet article, il n'y a aucune raison pour que vous lisiez le reste de cet article.

Compte tenu d' une machine arbitre avec les états , avec un état initial désigné s 0 , un état s a dont la paire de scores est [ - 1 , + 1 ] , un état s b dont la paire de scores est [ + 1 , - 1 ] , et des états de la forme{1,2,3,...,S}s0sa[1,+1]sb[+1,1]

où:[p1_info,p2_info,num_of_choices,player_to_move,next_state_table]

  • player_to_move{1,2}
  • est une fonction de { 1 , 2 , 3 , . . . , Num_of_choices } { 1 , 2 , 3 , . . . , S }next_state_table{1,2,3,...,num_of_choices}{1,2,3,...,S}
  • p1_info,p2_info,num_of_choices1

Lorsque la machine est dans cet état:

  • envoie à Player_1 et envoie p2_info à Player_2,p1_infop2_info
  • num_of_choices{1,2,3,...,num_of_choices}
  • next_state_table

sasb

  • s'arrête avec la paire de scores de cet état comme sortie

s0=1





Quelle est la complexité du problème suivant?
Étant donné une telle machine d'arbitre et un entier positif N, émettez un nombre rationnel
qui est (additivement) à 1 / N de la valeur du jeu naturel pour le joueur 1.

Comme mentionné précédemment dans cette question, je ne peux trouver
aucun algorithme pour le faire.

Marzio De Biasi
la source
Les joueurs connaissent-ils la structure interne? Quel est l'avantage d'avoir des informations supplémentaires, cela donne plus de mouvements possibles?
domotorp
Oui. Cela leur donne une meilleure idée de l'état actuel.
Désolé mais je ne comprends toujours pas. Ensuite, ils connaissent la structure interne, mais ils ne savent pas où ils sont en ce moment? Veuillez clarifier la description, je suis sûr que je ne suis pas le seul à ne pas comprendre le problème.
domotorp
3
Votre modèle est-il le même qu'un "jeu stochastique au tour par tour à somme nulle avec des informations partielles"?
Kristoffer Arnsfelt Hansen
1
@Kristoffer: Ce n'est pas évident (du moins pour moi) que mon modèle permet le codage probabilités irrationnelles, bien que mon modèle soit par ailleurs équivalent à celui-là.

Réponses:

6

REMARQUE: mon prétendu algorithme était incorrect; Je l'ai effacé.

pp

Pour une limite inférieure de la complexité, la question du rapprochement de la valeur d'un jeu stochastique simple , est pas connu pour être dans P . En utilisant l'astuce de randomisation que j'ai donnée ci-dessus, il est facile d'écrire un jeu stochastique simple comme un jeu arbitré avec une table de recherche de taille polynomiale.

Peter Shor
la source
Cette idée de randomisation (du moins, comme vous l'avez décrite) ne peut que donner des probabilités rationnelles. De plus, les définitions utilisées dans les deux premiers articles que vous avez liés impliquent également que leurs jeux ont un arbre de jeu fini, alors que je n'ai besoin que d'un espace d'états fini (où "état" n'inclut pas l'historique du jeu).
Vous avez raison ... la première partie de ma réponse est incorrecte. Permettez-moi de le supprimer. Je suis assez sûr que l'approximation de la valeur des jeux stochastiques simples n'est pas connue pour être en P même lorsque tous les lancers de pièces ont une probabilité 1/2.
Peter Shor
1


ϵ0<ϵ

Entrée: un jeu tel que décrit dans ma question
doit afficher OUI si: la valeur du jeu pour le joueur 1 est supérieure à 1ϵ
ϵ

reste RE- dur même lorsque

player_to_move vaut toujours 1 (c'est-à-dire qu'un seul joueur est nécessaire)
et
s 0 ≠ s a et s a n'est pas dans la plage (next_state_table)
(c'est-à-dire qu'il est littéralement impossible pour le joueur de perdre)
et
p1_info et p2_info et number_of_choices sont indépendants de l'état
(c.-à-d. que la seule rétroaction du joueur est de savoir s'il vient de gagner ou non)

.


la source