La fonction d'évaluation d'un moteur d'échecs, qu'elle soit instanciée sous forme de réseau neuronal ou de code explicite, est toujours en mesure d'attribuer une valeur à n'importe quelle position de carte. Si vous lui donnez une position sur le plateau, même absurde qui ne se produirait jamais dans un jeu, il pourra cracher un nombre représentant son avantage pour un joueur ou un autre. Étant donné que le nombre de positions de plateau dans les échecs est incroyablement gigantesque, la formation ne peut se produire que sur un échantillon infinitésimal de l'arbre de jeu. Le moteur ne rappelle pas simplement les valeurs précédemment calculées des positions de la planche, mais effectue des calculs basés sur la disposition des pièces. Pour un exemple de réseau non neuronal, une partie de l'évaluation d'un moteur d'échecs pourrait consister à additionner la valeur de chaque pièce de son côté et à soustraire la valeur totale des pièces de l'adversaire. Alors,
Lorsque le moteur n'est pas formé, les valeurs attribuées à une position peuvent tout aussi bien être aléatoires car les paramètres de la fonction d'évaluation commencent par (généralement) des valeurs aléatoires. Le but d'une phase d'entraînement est d'ajuster les paramètres du moteur afin qu'il attribue des scores élevés aux positions du plateau qui sont des états gagnants probables pour le joueur.
Extrait du document sur AlphaZero (page 3):
Les paramètres du réseau neuronal profond d'AlphaZero sont entraînés par un apprentissage par renforcement en auto-jeu, à partir de paramètres initialisés au hasard. Les parties se jouent en sélectionnant les mouvements des deux joueurs par les SCTM. À la fin du jeu, la position terminale est notée selon les règles du jeu pour calculer le résultat du jeu: -1 pour une défaite, 0 pour un match nul et +1 pour une victoire. Les paramètres du réseau neuronal sont mis à jour de manière à minimiser l'erreur entre le résultat prédit et le résultat du jeu, et à maximiser la similitude du vecteur de politique avec les probabilités de recherche.
[symboles mathématiques supprimés de la citation]
En résumé, lors de l'entraînement, AlphaZero a joué un match contre lui-même. Lorsque le jeu est terminé, le résultat du jeu et la précision de ses prédictions sur la façon dont le jeu se déroulerait ont été utilisés pour ajuster le réseau neuronal afin qu'il soit plus précis lors du prochain jeu. AlphaZero ne tient pas de registre de chaque position qu'il a vue, mais s'ajuste lui-même pour pouvoir évaluer plus précisément n'importe quelle planche qu'il voit à l'avenir.