J'ai une question peut-être naïve sur AlphaZero. Je l'ai vu décrit comme jouant dans un style "plus humain" que les autres ordinateurs, mais quoi qu'il en soit, il gagne environ 100 points ELO en le faisant. Kasparov, et beaucoup d'autres, ont affirmé qu'un homme fort en collaboration avec un ordinateur battrait un ordinateur puissant (peut-être d'environ 100 ELO ??). Une question évidente est donc: comment AlphaZero se compare-t-il à une combinaison "centaure"?
Je n’ai examiné que quelques jeux. Ce que j’ai remarqué, c’est que la plupart des ordinateurs jouent à des jeux ouverts qui optimisent leur propre mobilité, mais AlphaZero semble très soucieux de limiter la mobilité de ses adversaires. Dans un joueur humain, je décrirais cela comme une question de style, ni plus ni moins humain.
Réponses:
La réponse de la page 5 du document est la suivante:
"sélectivement" est le mot clé. Qu'est-ce que ça veut dire? Utilisons cette position suivante pour notre exemple:
Ceci est un jeu récent remporté par Caruana en 2017 London Chess Classic. L'évêque blanc est attaqué et vous savez que vous devez le déplacer. Mais où?
Possibilités (ne pas perdre un morceau):
À quoi pensait Caruana?
C'est une pensée humaine , et un "mouvement humain". Caruana n'avait pas envisagé Bh4, Be3 et Bd2 parce qu'ils "avaient l'air" mauvais. Il avait mis l' accent uniquement et que le mouvement Bc1.
Les humains jouent aux échecs de manière très sélective , nous rejetons les mouvements déraisonnables car nous n’avons pas le temps d’examiner toutes les possibilités de la même manière.
C'est ce que AlphaZero essaie de revendiquer dans le journal. Ils affirment que leur algorithme, bien que plus lent que Stockfish, est capable de sélectionner sélectivement de meilleurs mouvements que Stockfish lors de la recherche. Bien que Stockfish soit plus rapide, il perd du temps en mauvaises manœuvres. AlphaZero est plus lent, mais plus précis (comme ce que faisait Caruana).
Par exemple, AlphaZero pourrait dépenser 80% des ressources sur Bc1 et 20% sur tous les autres déplacements de l’évêque. Stockfish peut donner 25% pour chaque coup (Bh4, Be3, Bd2, Bc1).
la source
La plupart des moteurs puissants insistent sur le fait de regarder très profondément, au détriment d’une fonction d’évaluation superficielle. Dans le journal AlphaZero, ils disent que Stockfish regarde 70 millions de positions par seconde.
Les grands maîtres humains regardent très peu de positions comparées aux moteurs, mais ils ont une meilleure idée de qui est meilleur dans une position donnée.
AlphaZero n’a étudié que 80 000 positions par seconde, ce qui lui a permis de consacrer beaucoup plus de temps à sa fonction d’évaluation.
C'est le sens dans lequel ils voulaient dire "plus humain", rien de plus.
la source
AlphaZero semble déjà jouer comme un "centaure" régulier -> Correspondant GM avec une assistance moteur.
En tant que FM, j'aurais beaucoup plus de plaisir à jouer à AlphaZero par rapport à un moteur classique.
Une comparaison serait que Karpov joue avec une tactique parfaite. (Jeu 9 AlphaZero joue un morceau pour 15 mouvements qui est très Tal comme).
Ce n’est pas que du style, AlphaZero donne une impression de compréhension des positions meilleure que celle de Stockfish.
AlphaZero ne souffre pas non plus de l’effet Horizon que TOUS les moteurs d’échecs ont subi jusqu’à présent. Maintes et maintes fois, il est capable d'évaluer correctement une position plus bas que Stockfish.
Voici un exemple:
AlphaZero joue le roi au centre 16. Kxd2! dans une partie moyenne, jugeant correctement que Black ne pourra pas en tirer avantage.
Il est capable d'évaluer correctement un sacrifice de pièce 30. Bxg6! tandis que les moteurs normaux sont incapables de voir qu'ils sont perdus pour un certain nombre de mouvements.
Il existe d'autres exemples tels que l'échange Sacrifice dans le jeu 3.
la source
Il est aussi facile de suivre le mouvement en affirmant que le jeu d'Alpha-Zero est «plus» humain que les programmes d'échecs informatiques précédents, mais il est également essentiel de dire que le jeu d'Alpha-Zero est totalement «extraterrestre». Il n'est pas clair que le jeu d'Alpha-zéro soit "plus humain", en particulier compte tenu de notre tendance humaine à l'anthropomorphisme.
Les échecs en tant que lutte de l'esprit (humain)
Mais aux échecs cette tendance est-elle vraie? Un jour, Magnus Carlsen a expliqué à quel point les ordinateurs «traditionnels» manquaient de créativité humaine en disant:
Magnus Carlsen n'a pas vu de preuves de styles de jeu humains dans les ordinateurs d'échecs traditionnels. Voyons donc si la récente réalisation d’Alpha-Zero a défait cette perspective et nous a amenés vers quelque chose de plus évocateur de nous-mêmes.
Les créateurs de l'algorithme indiquent que, contrairement à Stockfish qui utilise un algorithme de recherche Alpha-Beta, Alpha-Zero utilise un algorithme de recherche dans l'arbre de Monte-Carlo (MCTS) qui accepte en entrée un paramètre pondéré θ construit à partir de résultats précédents ~ Page 3. Maîtriser les échecs et Shogi par Self-Play avec un algorithme d’apprentissage par renforcement général ).
Donc, l'algorithme ne montre aucun choix. Il s’engage en fait dans une recherche aléatoire mais probabiliste de Monty-carlo, dans laquelle les voies de recherche possibles sont de plus en plus préjudiciables aux résultats précédents. Alpha-zero a-t-il choisi d'optimiser son style de jeu de cette manière ou est-ce le choix de ses programmeurs?
Au départ, tous les mouvements étaient disponibles, donc son style était totalement aléatoire. Cependant, comme sa recherche est de plus en plus contrainte de manière optimale par le succès ou l’échec précédents, son style évolue en réalité vers le mode que les programmeurs lui ont réservé. Est-ce que c'est «plus humain»? Comparez cela à Magnus Carlesen qui choisira parfois des mouvements moins optimaux car plus créatifs :
Les échecs en tant que lutte de l'esprit (étranger)
Les humains peuvent choisir les critères qui déterminent leur propre style de jeu (par exemple, j'ai souvent choisi l'impulsion et l'erreur dans mon propre style). Beaucoup voient le jeu d'Alpha-zéro aux deux échecs et vont résolument comme des extraterrestres . Nick Hynes, étudiant diplômé du Laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL), observe:
De même, le directeur général Peter Heine Nielsen a déclaré à Chess.com :
Il semble que la plupart des gens réagissent au style de jeu émergent d’Alpha-zéro en tant que «jeu extraterrestre» et non en tant que «plus humain».
la source
C'est un moment incroyablement intéressant pour être en vie.
Les ordinateurs d'échecs à partir des années 1970 sont des algorithmes de recherche basés sur l'arborescence minimax utilisant l'élagage alpha-bêta. Ces programmes sont devenus de plus en plus puissants à la fois en raison des progrès de la vitesse informatique et du parallélisme et des améliorations apportées à la fonction d’évaluation heuristique utilisée pour élaguer les branches et sélectionner les nœuds terminaux. Mais les gens ont depuis longtemps remarqué à quel point le jeu informatique est matérialiste et ennuyeux, et beaucoup de personnes (moi compris) ont pensé qu'il était impossible de coder une intuition "humaine" dans un logiciel.
Mais avez-vous vu ces jeux?
AlphaZero présente des jeux incroyablement beaux, notamment plusieurs exemples de sacrifices matériels pour des avantages positionnels à long terme. Cela rappelle certains des plus beaux jeux de maîtres humains, mais avec une précision technique incomparable. C’est le premier exemple que j’ai vu dans ma vie d’une chose générée par ordinateur et d’une beauté profonde .
La revendication des centaures:
J'ai souvent entendu Garry le dire, mais ce n'est tout simplement pas vrai. Ou du moins, ce ne sera plus le cas avec AlphaZero sur les lieux.
Imaginez ceci: il existe un sac de pièces contenant 10 000 continuations pertinentes, 5 000 d'entre elles étant purement tactiques (mais généralement sans lien les unes avec les autres) et 5 000 autres ayant pour la plupart une position (et la plupart du temps non liées). Comment un être humain pourrait-il passer au crible toutes ces variations sans se tromper? Si AlphaZero peut maintenant examiner ces mouvements très créatifs, quelle contribution une personne pourrait-elle éventuellement apporter?
La dernière frontière:
Il reste un endroit où le calcul brutal vaincra encore les réseaux neuronaux profonds: les parties terminales. Il n'y a aucune quantité d'intuition qui batte une table. Mais les fins qui nécessitent une base de table (car un arbre de recherche ne peut pas aller assez loin pour calculer le bon mouvement) sont plutôt rares. Et vous pouvez simplement brancher une base de table sur AlphaZero, mais cela détruirait la pureté d'un moteur "autodidacte", n'est-ce pas?
la source
Comme les humains n’ont pas la capacité de chercher en profondeur, comme les programmes traditionnels d’échecs informatiques (Fritz, Stockfish et autres), ils créent des «principes stratégiques» ou des règles empiriques (contrôle central, développement, sécurité du roi) et des concepts ou astuces applicables dans une grande variété de domaines. situations de différentes manières, telles que sacrifice, tours associées, paire d’évêques, fins spécifiques, par exemple comment coincer le roi avec une tour et un pion.
Je pense que l'alpha zéro a indépendamment réinventé de nombreux concepts de ce type (percepts et concepts) et en a également appris beaucoup de nouveaux - car il n'était pas nécessaire que ses connaissances soient bâties sur des fonctions d'évaluation humaines et que la forte recherche minmax, qui suppose toujours que l'adversaire est un génie.
Bien sûr, ces principes eux-mêmes sont en conflit dans certaines situations, c’est pourquoi divers jeux d’ouverture et pièges sont soigneusement étudiés - par exemple, ne développez pas Reine trop tôt.
D'autre part, les humains remarquent également qu'une fois que vous perdez une pièce (sans échange), vous affaiblissez vos forces. Ils font donc extrêmement attention à ne pas perdre une pièce sans compensation.
Je pense que le jeu d'Alphazero a libéré les échecs informatiques (et humains) de la peur servile de perdre de petits documents et de se fier de plus en plus à l'ouverture des livres et des valeurs des pièces.
Les jeux Alphazero montrent des éléments tels que les «principes stratégiques» tels que le contrôle du centre, le développement, l’espace et l’initiative, sont beaucoup plus importants si votre adversaire est négligé. En d'autres termes, le «sacrifice» n'est pas vraiment un sacrifice, mais bien un échange pour un gain d'initiative, de position, de mouvement dirigé.
Alphago (et non le zéro) s’appuyait sur une évaluation humaine, mais alphazero configure toute la chaîne d’évaluation en «recherche ou simulation» en tant que processus unique de bout en bout et propose une manière de jouer totalement nouvelle.
Si vous y réfléchissez, de grands maîtres du passé tels que Morphy, Fischer et Kasparov ont été applaudis pour ce type de jeu de contre-intuitif où ils ne sont pas limités par une évaluation écrite sur pierre en profitant de situations spéciales émerger. Je pense que les jeux de l'alpha zéro ont un tel facteur "wow".
Pourquoi les réseaux de neurones. Bien que les programmes informatiques qui utilisent la représentation symbolique et la recherche discrète ne puissent utiliser qu'une seule façon de penser, les réseaux de neurones peuvent traiter en parallèle des situations avec des évaluations alternatives contradictoires et basculer vers la vue plus intéressante des couches suivantes.
la source
Plus humain dans le sens où les mouvements qu’il joue semblent coïncider plus ou moins avec une approche humaine: jouer pour un avantage à long terme, sacrifices de position, activité à la pièce. Il y a une convergence apparente avec la connaissance des échecs humains et les principes stratégiques acceptés, raffinés au fil des siècles (par exemple, il a "découvert" de nombreuses mêmes ouvertures). Ceci est remarquable compte tenu du fait qu'AlphaZero n'a pas été semé avec des connaissances en matière d'échecs construites par l'homme.
Mais les similitudes se terminent ici. AlphaZero le fait passer au niveau supérieur et le fait mieux, et de façon que l'homme n'a jamais conçue. AlphaZero possède des capacités "surhumaines" pour citer le journal: "AlphaZero a atteint un niveau de jeu surhumain [...]" ( https://arxiv.org/pdf/1712.01815.pdf ). De plus, il n’a pas les faiblesses inhérentes à l’être humain: problèmes de concentration, peur, fatigue, sentiments, intuition, etc. qui limitent les humains. Et son cerveau en silicium permet des combinaisons tactiques dépassant les capacités humaines lorsque cela est nécessaire.
la source
Je tiens à remercier toutes les personnes qui ont répondu à cette question, souvent avec subtilité et perspicacité. Il me semble que la principale différence dans les réponses réside dans l'interprétation du mot humain.
AlphaZero ne joue pas aux échecs humains dans le sens d’oubli ou d’erreur de calcul, mais son processus de "réflexion" semble correspondre, sous une forme plus élaborée, à la façon dont, à mon avis, les joueurs les plus forts pensent. Vous établissez assez rapidement une liste de "mouvements de candidats" que vous voudriez jouer. Pour les joueurs les plus forts, cette liste est incroyablement précise, même en jouant en une minute à la manière d'un jeu remarquablement sensé. Le reste du temps est consacré à la question de savoir lequel des mouvements de cette liste fonctionne réellement? Petrossian a déclaré qu'il se sentait le plus en forme lorsque le mouvement auquel il a finalement joué était celui auquel il avait pensé en premier. Nous savons tous à quel point il est satisfaisant de constater que le coup que nous voulions le plus jouer était tactiquement jouable. Je peux me rapporter à l'algorithme AlphaZero beaucoup plus facilement qu'à la recherche AlphaBeta,
Ce qui semble le plus intéressant, c'est la façon dont la machine a pu reconnaître, par ses propres moyens, les candidats prometteurs. C’est là que réside le potentiel d’une véritable révolution. Je me demande si cela n'est possible que pour des domaines comme les échecs et le go, où les objectifs peuvent être clairement définis. Mais je trouve frappant que AlphaZero semble faire preuve de détermination, mais Stockfish n’a aucune idée de ce qui se passe.
la source
Si je comprends bien les réseaux de neurones, le véritable avantage de A0 réside dans son évaluation supérieure des positions des administrateurs. Cette évaluation intègre à la fois des connaissances tactiques à court terme (qui servent en quelque sorte de multiplicateur du nombre de postes examinés) et une évaluation supérieure de la valeur stratégique.
la source
Une chose que je pense que toute la discussion a manqué, c'est que A0 peut jouer aux échecs, au shogi et partir, très bien et tous par auto-entraînement. C'est beaucoup plus humain. De plus, il a révélé de nouvelles idées aux meilleurs joueurs (si je comprends bien). D'autres moteurs sont très spécifiques à une tâche, A0 semble autrement. J'aimerais le voir jouer aux échecs960.
la source
Je ne pense pas qu'il y ait quelque chose d'humain chez Alpha. Il utilisait simplement du matériel beaucoup plus puissant et jouait aux échecs de meilleure qualité. Les bons mouvements d'ouverture qu'il trouve (par exemple, passer du côté fianchetto king à Bg2) sont entièrement dus à son livre d'ouverture simulé. Les concepts qui m'ont impressionné et que j'ai formulés dans «Le secret des échecs»: http://davidsmerdon.com/?p=1970 , qu'Alpha utilise pour la première fois parmi les principaux moteurs, sont des chaînes plus longues avancées, par exemple le d4 -e5-f6 chaîne qui a battu tout un morceau dans le jeu de sacrifice Bg6, et retardataires centraux, comme on le voit dans les jeux de la Défense française entre les deux moteurs. Les deux concepts impliquent de chercher dans de grandes profondeurs, et probablement ici Alpha a été aidé par son matériel formidable. Sinon, je ne vois rien d'humain dans son jeu. Beaucoup de jeux étaient, certes,
la source