Comment Alpha Zero est-il «plus humain»?

35

J'ai une question peut-être naïve sur AlphaZero. Je l'ai vu décrit comme jouant dans un style "plus humain" que les autres ordinateurs, mais quoi qu'il en soit, il gagne environ 100 points ELO en le faisant. Kasparov, et beaucoup d'autres, ont affirmé qu'un homme fort en collaboration avec un ordinateur battrait un ordinateur puissant (peut-être d'environ 100 ELO ??). Une question évidente est donc: comment AlphaZero se compare-t-il à une combinaison "centaure"?

Je n’ai examiné que quelques jeux. Ce que j’ai remarqué, c’est que la plupart des ordinateurs jouent à des jeux ouverts qui optimisent leur propre mobilité, mais AlphaZero semble très soucieux de limiter la mobilité de ses adversaires. Dans un joueur humain, je décrirais cela comme une question de style, ni plus ni moins humain.

Philip Roe
la source
4
Pour ce que cela vaut, cette affirmation de Kasparov est très ancienne. Un homme et un ordinateur en collaboration ("échecs avancés" ou "échecs centaures") ne peuvent plus surperformer un ordinateur seul - les ordinateurs sont tout simplement trop beaux - Stockfish 8 est évalué quelque part aux environs de ~ 3400 IIRC, contre ~ 2825 pour Magnus Carlsen .
Stephen Touset
8
@StephenTouset Juste un avertissement pour faire attention avec les évaluations Elo pour les moteurs. Celles que j'ai le plus souvent rencontrées proviennent de comparaisons moteur contre moteur qui n'ont pas été standardisées pour un vrai humain. Citation Wikipedia [...] pertinente : "Ces évaluations n'ont aucun lien direct avec les évaluations FIDE Elo ou avec d'autres évaluations de fédérations d'échecs de joueurs humains. Sauf certains jeux homme-machine que le SSDF avait organisés il y a de nombreuses années à partir du niveau actuel), il n’ya pas d’étalonnage entre ces listes de
votes
1
Je pense que les humains pourraient, mais pas dans les contrôles de temps standard. Les longs jeux de correspondance devraient bien se passer.
SmallChess
4
Uh, AlphaZero est un produit de Google. Il n’est donc pas étonnant que vous entendiez plus de propagande à ce sujet que les produits des autres sociétés. Je suppose qu'ils ont de meilleures offres avec les auteurs et les éditeurs. Prenez-le avec un tas de sel, comme tout ce qui concerne Waymo.
coderworks

Réponses:

33

La réponse de la page 5 du document est la suivante:

... AlphaZero compense le nombre inférieur d'évaluations en utilisant son réseau de neurones profonds pour coûter beaucoup plus sélectivement sur les variations les plus prometteuses - sans doute une approche plus "humaine" des échecs ...

"sélectivement" est le mot clé. Qu'est-ce que ça veut dire? Utilisons cette position suivante pour notre exemple:

https://chess24.com/en/read/news/london-classic-5-caruana-shows-how-it-s-done

Se déplace

Ceci est un jeu récent remporté par Caruana en 2017 London Chess Classic. L'évêque blanc est attaqué et vous savez que vous devez le déplacer. Mais où?

Possibilités (ne pas perdre un morceau):

  • Bh4
  • Be3
  • Bd2
  • Bc1

À quoi pensait Caruana?

J'avais l'impression de perdre à un moment donné, mais quand j'ai vu 25.Bc1, j'ai soudainement commencé à être un peu plus optimiste quant à mes chances. J'ai réalisé que ma position était mauvaise, mais au moins j'avais un plan et c'était vraiment tout ce dont j'avais besoin pour avoir confiance en cette position. Quand j'ai vu ce b3, c4, la position est à double tranchant et j'ai quelques chances.

C'est une pensée humaine , et un "mouvement humain". Caruana n'avait pas envisagé Bh4, Be3 et Bd2 parce qu'ils "avaient l'air" mauvais. Il avait mis l' accent uniquement et que le mouvement Bc1.

Les humains jouent aux échecs de manière très sélective , nous rejetons les mouvements déraisonnables car nous n’avons pas le temps d’examiner toutes les possibilités de la même manière.

  • Nous jetons Bh4 car il relâche la tension sur le pion h6
  • Nous rejetons Be3 car il bloque les deux tours blanches du troisième rang
  • Nous rejetons Bd2 car il bloque la reine blanche du côté du roi

C'est ce que AlphaZero essaie de revendiquer dans le journal. Ils affirment que leur algorithme, bien que plus lent que Stockfish, est capable de sélectionner sélectivement de meilleurs mouvements que Stockfish lors de la recherche. Bien que Stockfish soit plus rapide, il perd du temps en mauvaises manœuvres. AlphaZero est plus lent, mais plus précis (comme ce que faisait Caruana).

Par exemple, AlphaZero pourrait dépenser 80% des ressources sur Bc1 et 20% sur tous les autres déplacements de l’évêque. Stockfish peut donner 25% pour chaque coup (Bh4, Be3, Bd2, Bc1).

Petitchess
la source
1
Donc, fondamentalement, le style de jeu n’est pas forcément plus humain, mais c’est l’approche pour trouver le prochain mouvement à jouer. Au moins selon le papier. De plus, je ne peux pas l'éditer, mais votre citation de Caruana a une assez grosse faute de frappe: "Quand j'ai vu son b3, c4" devrait être "Quand j'ai vu ce b3, c4"
Arthur
@ Arthur Selon le papier (et seulement le papier), le style de jeu n'est pas nécessairement plus humain. Je ne dis pas NON, mais rien dans le journal ne dit cela.
SmallChess
Les algorithmes de Monte Carlo ont un paramètre permettant de contrôler l'exploit x, ainsi les déplacements que l'alpha-bêta ne prendrait jamais en compte (en raison du temps), l'alpha zéro le fait.
Fernando
@ Fernando Pouvez-vous expliquer à quoi vous répondez? J'ai du mal à comprendre le point. Aussi je suis confus par «ne jamais considérer à cause du temps». La recherche alpha-bêta ignore les branches qui sont clairement pires que certaines autres branches déjà explorées. Je ne vois pas ce que cela a à faire avec le temps.
IA Petr Harasimovic
Fondamentalement, si une ligne est de +0,32 et l'autre de +0,13, AlphaZero passera du temps sur la première.
Jossie Calderon
16

La plupart des moteurs puissants insistent sur le fait de regarder très profondément, au détriment d’une fonction d’évaluation superficielle. Dans le journal AlphaZero, ils disent que Stockfish regarde 70 millions de positions par seconde.

Les grands maîtres humains regardent très peu de positions comparées aux moteurs, mais ils ont une meilleure idée de qui est meilleur dans une position donnée.

AlphaZero n’a étudié que 80 000 positions par seconde, ce qui lui a permis de consacrer beaucoup plus de temps à sa fonction d’évaluation.

C'est le sens dans lequel ils voulaient dire "plus humain", rien de plus.

RemcoGerlich
la source
11

AlphaZero semble déjà jouer comme un "centaure" régulier -> Correspondant GM avec une assistance moteur.

En tant que FM, j'aurais beaucoup plus de plaisir à jouer à AlphaZero par rapport à un moteur classique.

Une comparaison serait que Karpov joue avec une tactique parfaite. (Jeu 9 AlphaZero joue un morceau pour 15 mouvements qui est très Tal comme).

Ce n’est pas que du style, AlphaZero donne une impression de compréhension des positions meilleure que celle de Stockfish.

AlphaZero ne souffre pas non plus de l’effet Horizon que TOUS les moteurs d’échecs ont subi jusqu’à présent. Maintes et maintes fois, il est capable d'évaluer correctement une position plus bas que Stockfish.

Voici un exemple:

AlphaZero - Stockfish, AlphaZero vs Stockfish: AlphaZero - Stockfish, 2017-12-05, 1-0
1. d4 e6 2. e4 d5 3. Nc3 Nf6 4. e5 Nfd7 25. Rc7 Rc8 26. Rxc8 + Bxc8 27. Rc6 Bb7 28. Rc2 Kd7 5. f4 c5 6. Nf3 cxd4 7. Nb5 Bb4 + 8. Bd2 Bc5 9. b4 Be7 10. Nbxd4 Nc6 11. c3 a5 12. b5 Nxd4 13. cxd4 Nb6 14. a4 Nc4 15. Bd3 Nxd2 16. Kxd2 Bd7 17. Ke3 b6 18. g4 h5 19. Qg1 hxg4 20. Qxg4 Bf8 21. h4 Qe7 22. Rhc1 g6 23. Rc2 Kd8 24. Rac1 Qe8 29. Ng5 Be7 30. Bxg6 Bxg5 31. Qxg5 fxg6 32. f5 Rg8 33. Qh6 Qf7 34. f6 Kd8 35. Kd2 Kd7 36. Rc1 Kd7 37. Qe3 Qf8 38. Qc3 Qb4 39. Qxb4 axb4 40. Rg1 b3 41. Kc3 Bc8 42. Kxb3 Bd7 43. Kb4 Be8 44. Ra1 Kc7 45. a5 Bd7 46. ​​axb6 + Kxb6 47. Ra6 + Kb7 48. Kc5 Rd8 49. Ra2 Rc8 + 50. Kd6 Be8 51. Ke7 g5 52. hxg5 1-0

AlphaZero joue le roi au centre 16. Kxd2! dans une partie moyenne, jugeant correctement que Black ne pourra pas en tirer avantage.

Il est capable d'évaluer correctement un sacrifice de pièce 30. Bxg6! tandis que les moteurs normaux sont incapables de voir qu'ils sont perdus pour un certain nombre de mouvements.

  1. F5 est très bien aussi.

Il existe d'autres exemples tels que l'échange Sacrifice dans le jeu 3.

Sint
la source
8

Il est aussi facile de suivre le mouvement en affirmant que le jeu d'Alpha-Zero est «plus» humain que les programmes d'échecs informatiques précédents, mais il est également essentiel de dire que le jeu d'Alpha-Zero est totalement «extraterrestre». Il n'est pas clair que le jeu d'Alpha-zéro soit "plus humain", en particulier compte tenu de notre tendance humaine à l'anthropomorphisme.

Les échecs en tant que lutte de l'esprit (humain)

Mais aux échecs cette tendance est-elle vraie? Un jour, Magnus Carlsen a expliqué à quel point les ordinateurs «traditionnels» manquaient de créativité humaine en disant:

"Les échecs sont tout au sujet de la lutte entre les esprits humains. C'est ce qui le rend passionnant. Les échecs informatiques sont mécaniques, sèches et fades. Les mouvements sont très forts, bien sûr, mais il n'y a pas de style. Si vous essayez de jouer contre un ordinateur d'échecs , vous perdrez non seulement avec une très grande certitude, mais vous vous ennuyerez également.

Magnus Carlsen n'a pas vu de preuves de styles de jeu humains dans les ordinateurs d'échecs traditionnels. Voyons donc si la récente réalisation d’Alpha-Zero a défait cette perspective et nous a amenés vers quelque chose de plus évocateur de nous-mêmes.

Si vous entendez par «être humain», vous entendez jouer «un comportement présentant plus de chances de faire appel à notre sens de l'anthropomorphisme», le style d'Alpha-zéro vous semble-t-il plus humain? Comment pouvons-nous vraiment tester cette myope subjective que les hommes aiment projeter sur des choses non humaines? Permet de poser la question suivante: l'algorithme "sélectionne-t-il mieux" ou présente-t-il "un choix créatif plus humain" dans son style de jeu?

Les créateurs de l'algorithme indiquent que, contrairement à Stockfish qui utilise un algorithme de recherche Alpha-Beta, Alpha-Zero utilise un algorithme de recherche dans l'arbre de Monte-Carlo (MCTS) qui accepte en entrée un paramètre pondéré θ construit à partir de résultats précédents ~ Page 3. Maîtriser les échecs et Shogi par Self-Play avec un algorithme d’apprentissage par renforcement général ).

Donc, l'algorithme ne montre aucun choix. Il s’engage en fait dans une recherche aléatoire mais probabiliste de Monty-carlo, dans laquelle les voies de recherche possibles sont de plus en plus préjudiciables aux résultats précédents. Alpha-zero a-t-il choisi d'optimiser son style de jeu de cette manière ou est-ce le choix de ses programmeurs?

Alpha-Zero a-t-il toujours tous les mouvements possibles à considérer ou certains mouvements sont-ils préjudiciables à l'algorithme de manière à imiter une expérience pouvant être interprétée par l'homme de manière anthropomorphique?

Au départ, tous les mouvements étaient disponibles, donc son style était totalement aléatoire. Cependant, comme sa recherche est de plus en plus contrainte de manière optimale par le succès ou l’échec précédents, son style évolue en réalité vers le mode que les programmeurs lui ont réservé. Est-ce que c'est «plus humain»? Comparez cela à Magnus Carlesen qui choisira parfois des mouvements moins optimaux car plus créatifs :

Magnus Carlsen: «J'aime créer quelque chose d'unique»

Les échecs en tant que lutte de l'esprit (étranger)

Les humains peuvent choisir les critères qui déterminent leur propre style de jeu (par exemple, j'ai souvent choisi l'impulsion et l'erreur dans mon propre style). Beaucoup voient le jeu d'Alpha-zéro aux deux échecs et vont résolument comme des extraterrestres . Nick Hynes, étudiant diplômé du Laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL), observe:

«Ce que nous voyons ici est un modèle exempt de préjugés et de présupposés humains: il peut apprendre que tout ce qu’il détermine est optimal, ce qui peut même être plus nuancé que nos propres conceptions de la même chose. C'est comme une civilisation extraterrestre inventant ses propres mathématiques, ce qui lui permet de faire des choses comme le voyage dans le temps ... "

De même, le directeur général Peter Heine Nielsen a déclaré à Chess.com :

"Après avoir lu le journal, mais surtout vu les jeux, je me suis dit, eh bien, je me suis toujours demandé comment ce serait si une espèce supérieure atterrit sur terre et nous montre comment ils jouent aux échecs. Je me sens maintenant, je le sais."

Il semble que la plupart des gens réagissent au style de jeu émergent d’Alpha-zéro en tant que «jeu extraterrestre» et non en tant que «plus humain».

Par conséquent, il y a une raison d'être en désaccord avec les réponses ci-dessus qui disent «oui».

utilisateur34445
la source
3
Votre réponse est assez trompeuse et inexacte par endroits. L'utilisation de SCTM n'est pas la différence cruciale, ce n'est pas pourquoi il a battu Stockfish. Ils pouvaient également utiliser la recherche alpha-bêta. Ils pensaient simplement que les SCTM fonctionnaient mieux pour eux. Les principaux éléments de l’algorithme AlphaZero sont un réseau de neurones convolutionnels très profonds, un apprentissage par renforcement (c’est-à-dire que le réseau est réglé par le jeu automatique) et une recherche arborescente (qui se trouve être le SCTM mais qui n’est pas nécessaire). Il n'y a rien de fabriqué à la main dans ce qui dit que "son style est en train de changer vers le mode que les programmeurs lui ont enchaîné" est incorrect.
IA Petr Harasimovic
"Les échecs sont tout au sujet de la lutte entre les esprits humains. C'est ce qui le rend passionnant. Les échecs informatiques sont mécaniques, sèches et fades. Les mouvements sont très forts, bien sûr, mais il n'y a pas de style". Quelqu'un a-t-il fait une expérience de type test de Turing bien menée avec un certain nombre de MJ jouant un adversaire anonyme pouvant être un humain ou un ordinateur?
Si vous croyez que mon propos était que les SCTM constituaient la différence essentielle (entre Alpha-zéro et Stockfish), vous oubliez mon argument. Ce que je voulais dire, c’est que ce sont les humains, et non les algorithmes, qui ont décidé du style de jeu d’Alpha-zéro, qui ont décidé de prendre cette décision. Ce que je voulais dire, c'est que ces choix très humains semblent conférer un style de jeu qui, à la fois aux GMs et aux amateurs, est clairement non humain.
user34445
Dr Eval vérifie - cs.stackexchange.com/questions/68249/…
user34445
1
@ user34445 En fait, je pense que ce paragraphe n'a aucun sens, j'essayais simplement de le rationaliser. Les humains n'ont pas décidé du style de jeu d'AlphaZero, ils ont décidé de son style d'apprentissage. Ils ne lui ont certainement pas imposé leur vision de la manière de jouer aux échecs.
IA Petr Harasimovic
5

C'est un moment incroyablement intéressant pour être en vie.

Les ordinateurs d'échecs à partir des années 1970 sont des algorithmes de recherche basés sur l'arborescence minimax utilisant l'élagage alpha-bêta. Ces programmes sont devenus de plus en plus puissants à la fois en raison des progrès de la vitesse informatique et du parallélisme et des améliorations apportées à la fonction d’évaluation heuristique utilisée pour élaguer les branches et sélectionner les nœuds terminaux. Mais les gens ont depuis longtemps remarqué à quel point le jeu informatique est matérialiste et ennuyeux, et beaucoup de personnes (moi compris) ont pensé qu'il était impossible de coder une intuition "humaine" dans un logiciel.

Mais avez-vous vu ces jeux?

AlphaZero présente des jeux incroyablement beaux, notamment plusieurs exemples de sacrifices matériels pour des avantages positionnels à long terme. Cela rappelle certains des plus beaux jeux de maîtres humains, mais avec une précision technique incomparable. C’est le premier exemple que j’ai vu dans ma vie d’une chose générée par ordinateur et d’une beauté profonde .


La revendication des centaures:

J'ai souvent entendu Garry le dire, mais ce n'est tout simplement pas vrai. Ou du moins, ce ne sera plus le cas avec AlphaZero sur les lieux.

Imaginez ceci: il existe un sac de pièces contenant 10 000 continuations pertinentes, 5 000 d'entre elles étant purement tactiques (mais généralement sans lien les unes avec les autres) et 5 000 autres ayant pour la plupart une position (et la plupart du temps non liées). Comment un être humain pourrait-il passer au crible toutes ces variations sans se tromper? Si AlphaZero peut maintenant examiner ces mouvements très créatifs, quelle contribution une personne pourrait-elle éventuellement apporter?


La dernière frontière:

Il reste un endroit où le calcul brutal vaincra encore les réseaux neuronaux profonds: les parties terminales. Il n'y a aucune quantité d'intuition qui batte une table. Mais les fins qui nécessitent une base de table (car un arbre de recherche ne peut pas aller assez loin pour calculer le bon mouvement) sont plutôt rares. Et vous pouvez simplement brancher une base de table sur AlphaZero, mais cela détruirait la pureté d'un moteur "autodidacte", n'est-ce pas?

Fixee
la source
3

Comme les humains n’ont pas la capacité de chercher en profondeur, comme les programmes traditionnels d’échecs informatiques (Fritz, Stockfish et autres), ils créent des «principes stratégiques» ou des règles empiriques (contrôle central, développement, sécurité du roi) et des concepts ou astuces applicables dans une grande variété de domaines. situations de différentes manières, telles que sacrifice, tours associées, paire d’évêques, fins spécifiques, par exemple comment coincer le roi avec une tour et un pion.

Je pense que l'alpha zéro a indépendamment réinventé de nombreux concepts de ce type (percepts et concepts) et en a également appris beaucoup de nouveaux - car il n'était pas nécessaire que ses connaissances soient bâties sur des fonctions d'évaluation humaines et que la forte recherche minmax, qui suppose toujours que l'adversaire est un génie.

Bien sûr, ces principes eux-mêmes sont en conflit dans certaines situations, c’est pourquoi divers jeux d’ouverture et pièges sont soigneusement étudiés - par exemple, ne développez pas Reine trop tôt.

D'autre part, les humains remarquent également qu'une fois que vous perdez une pièce (sans échange), vous affaiblissez vos forces. Ils font donc extrêmement attention à ne pas perdre une pièce sans compensation.

Je pense que le jeu d'Alphazero a libéré les échecs informatiques (et humains) de la peur servile de perdre de petits documents et de se fier de plus en plus à l'ouverture des livres et des valeurs des pièces.

Les jeux Alphazero montrent des éléments tels que les «principes stratégiques» tels que le contrôle du centre, le développement, l’espace et l’initiative, sont beaucoup plus importants si votre adversaire est négligé. En d'autres termes, le «sacrifice» n'est pas vraiment un sacrifice, mais bien un échange pour un gain d'initiative, de position, de mouvement dirigé.

Alphago (et non le zéro) s’appuyait sur une évaluation humaine, mais alphazero configure toute la chaîne d’évaluation en «recherche ou simulation» en tant que processus unique de bout en bout et propose une manière de jouer totalement nouvelle.

Si vous y réfléchissez, de grands maîtres du passé tels que Morphy, Fischer et Kasparov ont été applaudis pour ce type de jeu de contre-intuitif où ils ne sont pas limités par une évaluation écrite sur pierre en profitant de situations spéciales émerger. Je pense que les jeux de l'alpha zéro ont un tel facteur "wow".

Pourquoi les réseaux de neurones. Bien que les programmes informatiques qui utilisent la représentation symbolique et la recherche discrète ne puissent utiliser qu'une seule façon de penser, les réseaux de neurones peuvent traiter en parallèle des situations avec des évaluations alternatives contradictoires et basculer vers la vue plus intéressante des couches suivantes.

Ravi Annaswamy
la source
2

Plus humain dans le sens où les mouvements qu’il joue semblent coïncider plus ou moins avec une approche humaine: jouer pour un avantage à long terme, sacrifices de position, activité à la pièce. Il y a une convergence apparente avec la connaissance des échecs humains et les principes stratégiques acceptés, raffinés au fil des siècles (par exemple, il a "découvert" de nombreuses mêmes ouvertures). Ceci est remarquable compte tenu du fait qu'AlphaZero n'a pas été semé avec des connaissances en matière d'échecs construites par l'homme.

Mais les similitudes se terminent ici. AlphaZero le fait passer au niveau supérieur et le fait mieux, et de façon que l'homme n'a jamais conçue. AlphaZero possède des capacités "surhumaines" pour citer le journal: "AlphaZero a atteint un niveau de jeu surhumain [...]" ( https://arxiv.org/pdf/1712.01815.pdf ). De plus, il n’a pas les faiblesses inhérentes à l’être humain: problèmes de concentration, peur, fatigue, sentiments, intuition, etc. qui limitent les humains. Et son cerveau en silicium permet des combinaisons tactiques dépassant les capacités humaines lorsque cela est nécessaire.

AdamL
la source
2
Ensuite, il y a un paradoxe. Stockfish profite de l'expérience humaine; Alphazero ne le fait pas. Mais Alpha zéro semble plus humain. Cela signifie peut-être que nous n'avons pas fait, avec la génération Stackfish, un très bon travail de synthèse de nos pensées
Philip Roe
1

Je tiens à remercier toutes les personnes qui ont répondu à cette question, souvent avec subtilité et perspicacité. Il me semble que la principale différence dans les réponses réside dans l'interprétation du mot humain.

AlphaZero ne joue pas aux échecs humains dans le sens d’oubli ou d’erreur de calcul, mais son processus de "réflexion" semble correspondre, sous une forme plus élaborée, à la façon dont, à mon avis, les joueurs les plus forts pensent. Vous établissez assez rapidement une liste de "mouvements de candidats" que vous voudriez jouer. Pour les joueurs les plus forts, cette liste est incroyablement précise, même en jouant en une minute à la manière d'un jeu remarquablement sensé. Le reste du temps est consacré à la question de savoir lequel des mouvements de cette liste fonctionne réellement? Petrossian a déclaré qu'il se sentait le plus en forme lorsque le mouvement auquel il a finalement joué était celui auquel il avait pensé en premier. Nous savons tous à quel point il est satisfaisant de constater que le coup que nous voulions le plus jouer était tactiquement jouable. Je peux me rapporter à l'algorithme AlphaZero beaucoup plus facilement qu'à la recherche AlphaBeta,

Ce qui semble le plus intéressant, c'est la façon dont la machine a pu reconnaître, par ses propres moyens, les candidats prometteurs. C’est là que réside le potentiel d’une véritable révolution. Je me demande si cela n'est possible que pour des domaines comme les échecs et le go, où les objectifs peuvent être clairement définis. Mais je trouve frappant que AlphaZero semble faire preuve de détermination, mais Stockfish n’a aucune idée de ce qui se passe.

Philip Roe
la source
0

Si je comprends bien les réseaux de neurones, le véritable avantage de A0 réside dans son évaluation supérieure des positions des administrateurs. Cette évaluation intègre à la fois des connaissances tactiques à court terme (qui servent en quelque sorte de multiplicateur du nombre de postes examinés) et une évaluation supérieure de la valeur stratégique.

Steinar Vatne
la source
1
Bienvenue sur Chess SE! Pourriez-vous indiquer les raisons pour lesquelles vous pensez que les réseaux de neurones fonctionnent de cette manière?
Pablo S. Ocal
0

Une chose que je pense que toute la discussion a manqué, c'est que A0 peut jouer aux échecs, au shogi et partir, très bien et tous par auto-entraînement. C'est beaucoup plus humain. De plus, il a révélé de nouvelles idées aux meilleurs joueurs (si je comprends bien). D'autres moteurs sont très spécifiques à une tâche, A0 semble autrement. J'aimerais le voir jouer aux échecs960.

filière
la source
1
Je ne vois pas comment cela répond à la question.
SmallChess
-2

Je ne pense pas qu'il y ait quelque chose d'humain chez Alpha. Il utilisait simplement du matériel beaucoup plus puissant et jouait aux échecs de meilleure qualité. Les bons mouvements d'ouverture qu'il trouve (par exemple, passer du côté fianchetto king à Bg2) sont entièrement dus à son livre d'ouverture simulé. Les concepts qui m'ont impressionné et que j'ai formulés dans «Le secret des échecs»: http://davidsmerdon.com/?p=1970 , qu'Alpha utilise pour la première fois parmi les principaux moteurs, sont des chaînes plus longues avancées, par exemple le d4 -e5-f6 chaîne qui a battu tout un morceau dans le jeu de sacrifice Bg6, et retardataires centraux, comme on le voit dans les jeux de la Défense française entre les deux moteurs. Les deux concepts impliquent de chercher dans de grandes profondeurs, et probablement ici Alpha a été aidé par son matériel formidable. Sinon, je ne vois rien d'humain dans son jeu. Beaucoup de jeux étaient, certes,

Lyudmil Tsvetkov
la source
5
Ces deux affirmations sont incorrectes: 1) "Il a juste utilisé du matériel beaucoup plus puissant" - Oui, il a utilisé du matériel beaucoup plus puissant que Stockfish, mais ce n’est pas ce qui fait la différence. C'est le logiciel très différent qui nécessite un matériel puissant. 2) "Les bons mouvements d'ouverture qu'il trouve sont entièrement dus à son livre d'ouverture simulé." - Il n'utilise pas de livre d'ouvertures.
IA Petr Harasimovic
C’est précisément ce qui fait la différence: le matériel Alpha exponentiellement plus grand. Chaque testeur d’échecs sait que le fait de doubler sa vitesse augmente la force des échecs d’environ 70 elos, selon le logiciel utilisé. La différence entre 32 cœurs et 4TPU, 1000-2000 cœurs, est de 6 doublements ou plus. Cela ferait pour 420 elos. Ainsi, en réalité, bien qu’il ait renforcé 100 élos de plus sur ce matériel, à conditions égales, Alpha est environ 300 élos plus faible.
Lyudmil Tsvetkov
Il utilise un livre d'ouverture, bien sûr, peu importe ce qu'ils prétendent. Alpha a été formé aux meilleurs jeux gagnants de GM. C’est très clair, si l’on voit le premier choix d’Alpha: justement les ouvertures recommandées par la théorie moderne et précisément celles où les chances de gagner sont meilleures. Vous ne vous trompez pas avec Bg2 comme ça.
Lyudmil Tsvetkov
3
@Lyudmil, Google a réalisé quelque chose d'étonnant dans Alpha Zero. Il a appris ces mouvements en jouant contre lui-même en ne connaissant que les règles du jeu! Accusant l'équipe de tricheurs Alpha Zero, vous n'avez pas compris leurs réalisations ni leur mission. Ils repoussent les frontières de l'IA et, en un seul geste, battez tous les moteurs des échecs existants et le talent humain dans le travail de l'après-midi!
Saille
1
@LyudmilTsvetkov Vous êtes complètement incorrect. Alpha Zero (et c’est là le but) est entraîné sans aucun jeu humain. Il est informé des règles et a ensuite inventé chaque aspect de son jeu en quatre heures à jouer sans aucune nouvelle donnée extérieure.
Maverick