Cette question est une ramification de la précédente de Ramon Snir sur la fréquence à laquelle les différents types de pièces sont déplacés, en moyenne, dans une partie d'échecs. Ma question:
Le nombre relatif de coups pour les types de pièces donnés diffère-t-il quand on regarde les jeux de joueurs plus forts que les jeux de joueurs plus faibles? (Par exemple, peut-être que les joueurs les plus faibles ont tendance à faire plus de mouvements de pion au détriment des mouvements de pièces, ou ils font trop de mouvements de reine. Je ne sais pas.)
J'ai pu donner une réponse à la question précédente en utilisant des données brutes qui avaient été extraites d'une grande base de données par quelqu'un d'autre . Ces données provenaient d'un échantillon de jeux 4M +, allant du jeu de grand maître au jeu amateur faible, et les nombres agrégés pour les totaux de coups qui y sont donnés ne sont pas discriminatoires en fonction de la force du joueur. Pour répondre à ma question, il faudra obtenir des données distinctes pour les jeux entre joueurs forts et les jeux entre joueurs faibles, et je recherche des réponses étayées par des données plutôt que par des anecdotes .
Voici une forme plus spécifique de ma question:
Existe-t-il un seuil de classement Elo N tel que, lorsque l'on examine le nombre moyen de coups dans un jeu, ventilé par type de pièce, il y a une différence significative entre ce que l'on trouve dans les jeux avec des joueurs au-dessus de N et ce que l'on trouve dans les jeux avec des joueurs en dessous de N.
Il serait intéressant de trouver plus de ce genre de chose, c'est-à-dire des différences concrètes entre les acteurs plus forts et plus faibles qui peuvent être détectées par l'exploration de données. Ces résultats pourraient indiquer des comportements spécifiques qui freinent les joueurs, ou inversement ceux qui les propulsent en avant. Maintenant, peut-être qu'il n'y a pas de telles différences à trouver simplement en regardant ce type de données, mais je serais intéressé de le savoir aussi.
Réponses:
Voici une rapide et sale analyse basée sur la base de données PGN "Million Base". Je l'ai fait en un clin d'œil, il peut donc bien y avoir des erreurs de programmation ou de logique. Veuillez ne pas l'utiliser pour quelque chose de trop grave. Mise à jour - Remarque: En fait, je viens de remarquer que j'ai fait une erreur avec l'ensemble de données et je l'ai limité au premier million d'enregistrements. Je publierai une mise à jour lorsque j'aurai du temps libre pour l'exécuter à nouveau sur l'intégralité. En attendant, ces chiffres devraient néanmoins être intéressants.
Obtention des données:
J'ai obtenu le fichier Million Base 1.74 à partir de cette URL , car le site top-5000.nl semble 404 lorsque vous essayez de le télécharger. Le fichier contient un peu plus d'un million de jeux au format d'exportation PGN (c'est-à-dire facile à analyser).
Malheureusement, plus de 60% des jeux manquaient d'informations sur les notes (je cherchais des balises "WhiteELO" et "BlackELO"), et encore moins avaient des notes pour les deux joueurs. À la fin, j'ai décidé d'obtenir un échantillon aussi grand que possible et j'ai compté les mouvements d'un joueur si sa cote était connue, quelle que soit la cote de l'autre joueur.
Processus:
Les jeux ont été analysés un par un, et si la note d'un joueur était connue, tous ses mouvements pour cette partie seraient ajoutés à l'agrégat pour le groupe de notation du joueur. J'ai choisi de diviser les notes en groupes de 100, donc par exemple 1600 à 1699 était un seul groupe.
Comme le movetext réel dans PGN est SAN, j'ai utilisé le raccourci suivant pour compter les mouvements: les mouvements Knight (N), Bishop (B), Rook (R), Queen (Q) et King (K) commencent tous par la lettre de leur morceau . Le roque (OO et OOO) a été compté séparément, comme cas particulier. Tous les mouvements restants ont été comptés comme des mouvements de pion sans autre examen.
Aucun nettoyage des données n'a été effectué. Il n'y a eu aucune tentative d'identifier les valeurs aberrantes et de les supprimer (par exemple, des jeux extrêmement courts et longs, etc.). J'ai gardé, mais n'incluais pas dans l'analyse suivante, les résultats des évaluations inférieures à 1600 - la taille de l'échantillon pour ces jeux était bien inférieure à 100, conduisant à de grandes variations dans les résultats. Les données brutes sont fournies à la fin de ce post.
Quelques lacunes de l'information: pour l'instant, je n'ai collecté que des totaux très basiques et fourni des moyennes. Je suis à peu près sûr qu'en général, les données ne sont PAS normalement distribuées, mais ne seront pas en mesure d'en dire plus sans produire les chiffres bruts et les exécuter via un programme statistique. Je peux le faire, s'il y a un intérêt. Pour le moment, cela ne signifie aucun intervalle de confiance, ni aucune autre information sur la distribution des nombres que ces moyennes représentent. Je n'ai pas non plus vérifié combien d'années s'étend l'ensemble de données - s'il représente plusieurs années, il peut être utile d'essayer de corriger la force globale du champ.
Quelques tendances:
Un mot sur les cotes des joueurs - les groupes de cotes les plus fréquemment rencontrés étaient, dans l'ordre: 2400 à 2500, 2500 à 2600 et 2300 à 2400. Ces groupes de cotes fournissaient 72% des matchs comptés.
En regardant les résultats réels, la durée moyenne du jeu a été un peu une surprise:
Les groupes de notation inférieurs à 2000 avaient tous des matchs beaucoup plus courts que les groupes supérieurs. Cela peut s'expliquer par la possibilité qu'ils jouaient des adversaires plus forts (voir la note moyenne ci-dessus) et qu'ils aient été vaincus en moins de coups. Cela semble aller à l'encontre des jeux légèrement plus courts joués par le groupe de notation supérieur, bien que cela puisse contribuer à une taille d'échantillon plus petite.
Les différences relativement importantes dans la durée moyenne du jeu signifient que fournir la fréquence de déplacement d'une certaine pièce, plutôt que le nombre total de fois qu'une pièce est déplacée, est peut-être la comparaison la plus juste. Le calcul des fréquences donne le graphique suivant:
Les tendances suivantes semblent être présentes:
Analyse approfondie
Quelques idées pour une analyse future:
Agréger des données au format CSV
Pour ceux qui veulent jouer avec les données, n'hésitez pas.
Plage de notation, taille de l'échantillon, durée moyenne du jeu, mouvements de pion moyens, mouvements de chevalier moyens, mouvements d'évêque moyens, mouvements de tour moyens, mouvements de reine moyens, mouvements de roi moyens, roque moyen
la source