Version délimitée par calcul de l'équilibre de Nash?

14

Je me demande s'il existe une version limitée du calcul du concept d'équilibre de Nash, quelque chose dans le sens suivant.

Imaginez une sorte de jeu d'information parfait à deux joueurs qui se joue sur un plateau , et qui est complexe dans le sens où un jeu optimal est dur-EXPTIME. Supposons également pour des raisons de simplicité que les tirages ne soient pas possibles. Imaginez une paire de machines de Turing à temps polynomial randomisé jouant ce jeu les unes contre les autres. Pour chaque , soit la probabilité que bat au jeu d'ordre . (Pour être concret, disons que commence à jouer avec la probabilité 0,5.) Ce que je pense serait cool, c'est que l'on puisse prouver l'existence d'une pairen×n(A,B)npA,B(n)ABnA(A,B)avec la propriété qu'aucune machine de Turing à temps polynomial randomisé A domine A (où " A domine A " signifie pA,B(n)>pA,B(n) pour tout n suffisamment grand n) , et de même aucune machine de Turing à temps polynomial randomisé B domine B (où " B domine B " signifie pA,B(n)<pA,B(n) pour tout n suffisamment grand n).

D'une certaine manière, je soupçonne que c'est trop à espérer, mais y a-t-il un espoir pour que quelque chose comme ça soit vrai, peut-être pour une classe restreinte de jeux?

L'une des motivations de cette question est que je cherche un moyen de formaliser la notion qu'une position d'échecs donnée est "avantageuse pour les Blancs". Classiquement, une position est soit une victoire pour les Blancs, soit ce n'est pas le cas. Cependant, les joueurs d'échecs, à la fois humains et informatiques, ont une compréhension intuitive de ce que cela signifie pour les Blancs d'avoir un avantage. Cela semble avoir quelque chose à voir avec la probabilité de victoire des Blancs, étant donné que les joueurs sont limités en termes de calcul et doivent deviner le meilleur coup. Pour une paire spécifique d'algorithmes randomisés, on peut bien sûr parler de la probabilité que Blanc gagne, mais ce que je me demande, c'est s'il peut y avoir, dans un certain sens, un canonique paire de joueurs limités par le calcul dont les probabilités de gagner donnent une valeur pour la position qui ne dépend que du jeu lui-même et non des particularités des joueurs.

Timothy Chow
la source
Les concepts d'équilibre limités par calcul que je connais ont une saveur différente - penser à Halpern, Pass et Seeman comme dans Truth Behind the Myth of the Folk Theorem , 2014. Là, nous ne supposons pas que trouver une stratégie d'équilibre pour le jeu donné est difficile (car pour un jeu donné, il peut ou non l'être). Au contraire, nous permettons à toute stratégie définie d'être un équilibre s'il est difficile pour un joueur de calculer une déviation rentable. (Notez que cela suppose un espace de stratégie exponentielle, sinon nous pouvons vérifier toutes les déviations.)
usul

Réponses:

1

Je ne vois pas comment il pourrait y avoir une réponse facile, complètement élégante / satisfaisante à cette question, en particulier parce que le gain final est si difficile à calculer; cependant, mes réflexions sont trop longues pour poster un commentaire.

La meilleure idée que j'ai est la suivante: dans le cas des échecs, essayez d'approximer la probabilité que les blancs gagnent en fonction de l'avantage matériel des blancs (c.-à-d., Des pions supplémentaires, des chevaliers, etc.) pour une position donnée en sélectionnant au hasard des positions avec ce montant exact. -configuration du matériau. Peut-être que dans le cas des «échecs avec toutes les tours», nous pourrions dire: «Quelle est la probabilité que les Blancs gagnent avec 8 tours contre les 17 tours des Noirs? Cette probabilité est peut-être de 4%; pour le calculer, nous devrions examiner (disons) 1000 positions d'échecs différentes générées de manière aléatoire qui ont 8 tours blanches et 17 tours noires, puis regarder vers l'avant (disons) 10 mouvements profonds dans chaque cas, et voir quelle est la nouvelle configuration matérielle. . Ensuite, prenez les cotes attendues en fonction de la configuration du matériau à la fin,

Bien sûr, il serait nécessaire de trouver la configuration matérielle pour chaque possibilité pertinente ( M , N ) de M tours blanches à N tours noires ... probablement en commençant par la paire ordonnée la plus basse ( M = 1, N = 1) et en travaillant à partir de là.

Pour la position d'origine, ne vous contentez pas de la statistique que vous obtenez (c.-à-d., Si la position d'origine a ( M = 6, N = 7) tours, ne présumez pas simplement que les Blancs ont 25% de chances de gagner parce que c'est les chances de victoire attendues pour (6,7)); au lieu de cela, parce que vous pouvez être plus précis, regardez 10 mouvements de profondeur comme d'habitude avec cette seule position et trouvez toutes les positions de fin possibles. Ensuite, trouvez le bon chemin (qui implique un jeu optimal des deux côtés) vers une configuration en 10 mouvements profonds, et sélectionnez les cotes attendues de ce chemin comme les cotes attendues de la position d'origine.

Je pense que ce processus peut se faire en temps polynomial. Regarder k se déplace profondément pour k fixe dans les échecs est polynomial dans la taille de la planche, et le nombre total de tours blanches et noires est exprimé en unaire (dans un sens) parce que ce nombre doit être plus petit que la taille de la planche.

Si cela semble compliqué et difficile à expliquer, c'est parce que c'est le cas. Un résumé plus succinct de ce que je décris est le suivant: Utilisez la récursivité et les statistiques de base pour calculer les chances de victoire pour les M blanches blanches et N noires noires sur le tableau. Utilisez ensuite ces valeurs pour regarder k se déplacer en profondeur et déterminer les chances que les blancs gagnent dans la position d'origine.

Commentaire final: Je pense que ce problème est également intéressant pour les jeux non complets EXPTIME, tels que tic-tac-toe, qui selon Wikipedia est PSPACE-complet. De plus, je crois qu'un procédé comme celui que j'ai décrit ci-dessus pourrait également être utile là aussi, bien qu'il soit évidemment impossible d'avoir un avantage "matériel" dans le tic-tac-toe; il devrait y avoir une autre base pour juger de la supériorité de la position de X ou O.

Philip White
la source