Les joueurs forts déplacent-ils leurs pièces avec des fréquences relatives différentes de celles des joueurs faibles?

24

Cette question est une ramification de la précédente de Ramon Snir sur la fréquence à laquelle les différents types de pièces sont déplacés, en moyenne, dans une partie d'échecs. Ma question:

Le nombre relatif de coups pour les types de pièces donnés diffère-t-il quand on regarde les jeux de joueurs plus forts que les jeux de joueurs plus faibles? (Par exemple, peut-être que les joueurs les plus faibles ont tendance à faire plus de mouvements de pion au détriment des mouvements de pièces, ou ils font trop de mouvements de reine. Je ne sais pas.)

J'ai pu donner une réponse à la question précédente en utilisant des données brutes qui avaient été extraites d'une grande base de données par quelqu'un d'autre . Ces données provenaient d'un échantillon de jeux 4M +, allant du jeu de grand maître au jeu amateur faible, et les nombres agrégés pour les totaux de coups qui y sont donnés ne sont pas discriminatoires en fonction de la force du joueur. Pour répondre à ma question, il faudra obtenir des données distinctes pour les jeux entre joueurs forts et les jeux entre joueurs faibles, et je recherche des réponses étayées par des données plutôt que par des anecdotes .

Voici une forme plus spécifique de ma question:

Existe-t-il un seuil de classement Elo N tel que, lorsque l'on examine le nombre moyen de coups dans un jeu, ventilé par type de pièce, il y a une différence significative entre ce que l'on trouve dans les jeux avec des joueurs au-dessus de N et ce que l'on trouve dans les jeux avec des joueurs en dessous de N.

Il serait intéressant de trouver plus de ce genre de chose, c'est-à-dire des différences concrètes entre les acteurs plus forts et plus faibles qui peuvent être détectées par l'exploration de données. Ces résultats pourraient indiquer des comportements spécifiques qui freinent les joueurs, ou inversement ceux qui les propulsent en avant. Maintenant, peut-être qu'il n'y a pas de telles différences à trouver simplement en regardant ce type de données, mais je serais intéressé de le savoir aussi.

ETD
la source
Je suis un peu méfiant à propos de ces données agrégées, car cela pourrait manquer le point. Certains jeux se décident en jouant avec des pièces d'autres en poussant des pions. La fréquence d'une pièce déplacée ne dit rien sur la qualité des mouvements. Il y a une règle d'or qui dit que vous ne devez pas déplacer fréquemment une seule pièce dans l'ouverture. Cependant, les joueurs forts adoptent parfois cette tactique, si elle est justifiée par la position.
Michael
@Michael, je suis tout à fait d'accord qu'un facteur comme celui sur lequel je pose la question ne serait pas en soi révélateur d'un bon jeu; si je déplace mes types de pièces à la même fréquence relative qu'Aronian, disons, cela ne signifie bien sûr pas que je joue aussi bien que lui. Mais c'est exactement pourquoi cela pourrait être supérieur à, disons, Elo 1800, il n'y a pas de différence détectable dans ces fréquences relatives (bien qu'il existe une vaste gamme de capacités au-dessus de 1800), tandis qu'en dessous de 1800, elle est considérablement asymétrique. Cette découverte dans les données pourrait indiquer un facteur derrière le fait qu'un joueur soit en dessous de ce seuil de force.
ETD
1
Gardez à l'esprit que les données vont vous montrer ce que font les grands-maîtres lorsqu'ils font face à d'autres grands - maîtres , et de même avec des joueurs moins importants. Idéalement, vous voudriez comparer ce que font les meilleurs et les pires joueurs dans des positions identiques , mais cela ne serait probablement pas possible grâce au datamining, sauf pour l'ouverture.
Evan Harper
@EdDean - c'est un sujet assez intéressant. Une idée d'où exactement il a obtenu les jeux 4M +? Y a-t-il un endroit où nous pourrions obtenir quelque chose de taille significative (disons, 100K + jeux), à partir d'une source fiable mais gratuite? Je pense spécifiquement à une source facilement téléchargeable, par opposition à "consultable en ligne".
Daniel B
1
Juste pour faire un suivi, Wikipedia a une belle page sur les collections de jeux d'échecs . Parmi ceux-ci, le premier lien semblait de loin le plus prometteur (nombre relativement faible de PGN zippés à télécharger), mais de grandes sections manquent (codes ECO B à E), ce qui rendrait l'analyse très unilatérale et tout à fait inutile.
Daniel B

Réponses:

29

Voici une rapide et sale analyse basée sur la base de données PGN "Million Base". Je l'ai fait en un clin d'œil, il peut donc bien y avoir des erreurs de programmation ou de logique. Veuillez ne pas l'utiliser pour quelque chose de trop grave. Mise à jour - Remarque: En fait, je viens de remarquer que j'ai fait une erreur avec l'ensemble de données et je l'ai limité au premier million d'enregistrements. Je publierai une mise à jour lorsque j'aurai du temps libre pour l'exécuter à nouveau sur l'intégralité. En attendant, ces chiffres devraient néanmoins être intéressants.

Obtention des données:

J'ai obtenu le fichier Million Base 1.74 à partir de cette URL , car le site top-5000.nl semble 404 lorsque vous essayez de le télécharger. Le fichier contient un peu plus d'un million de jeux au format d'exportation PGN (c'est-à-dire facile à analyser).

Malheureusement, plus de 60% des jeux manquaient d'informations sur les notes (je cherchais des balises "WhiteELO" et "BlackELO"), et encore moins avaient des notes pour les deux joueurs. À la fin, j'ai décidé d'obtenir un échantillon aussi grand que possible et j'ai compté les mouvements d'un joueur si sa cote était connue, quelle que soit la cote de l'autre joueur.

Processus:

Les jeux ont été analysés un par un, et si la note d'un joueur était connue, tous ses mouvements pour cette partie seraient ajoutés à l'agrégat pour le groupe de notation du joueur. J'ai choisi de diviser les notes en groupes de 100, donc par exemple 1600 à 1699 était un seul groupe.

Comme le movetext réel dans PGN est SAN, j'ai utilisé le raccourci suivant pour compter les mouvements: les mouvements Knight (N), Bishop (B), Rook (R), Queen (Q) et King (K) commencent tous par la lettre de leur morceau . Le roque (OO et OOO) a été compté séparément, comme cas particulier. Tous les mouvements restants ont été comptés comme des mouvements de pion sans autre examen.

Aucun nettoyage des données n'a été effectué. Il n'y a eu aucune tentative d'identifier les valeurs aberrantes et de les supprimer (par exemple, des jeux extrêmement courts et longs, etc.). J'ai gardé, mais n'incluais pas dans l'analyse suivante, les résultats des évaluations inférieures à 1600 - la taille de l'échantillon pour ces jeux était bien inférieure à 100, conduisant à de grandes variations dans les résultats. Les données brutes sont fournies à la fin de ce post.

Quelques lacunes de l'information: pour l'instant, je n'ai collecté que des totaux très basiques et fourni des moyennes. Je suis à peu près sûr qu'en général, les données ne sont PAS normalement distribuées, mais ne seront pas en mesure d'en dire plus sans produire les chiffres bruts et les exécuter via un programme statistique. Je peux le faire, s'il y a un intérêt. Pour le moment, cela ne signifie aucun intervalle de confiance, ni aucune autre information sur la distribution des nombres que ces moyennes représentent. Je n'ai pas non plus vérifié combien d'années s'étend l'ensemble de données - s'il représente plusieurs années, il peut être utile d'essayer de corriger la force globale du champ.

Quelques tendances:

Un mot sur les cotes des joueurs - les groupes de cotes les plus fréquemment rencontrés étaient, dans l'ordre: 2400 à 2500, 2500 à 2600 et 2300 à 2400. Ces groupes de cotes fournissaient 72% des matchs comptés.

En regardant les résultats réels, la durée moyenne du jeu a été un peu une surprise:

Nombre moyen de mouvements par groupe de notation

Les groupes de notation inférieurs à 2000 avaient tous des matchs beaucoup plus courts que les groupes supérieurs. Cela peut s'expliquer par la possibilité qu'ils jouaient des adversaires plus forts (voir la note moyenne ci-dessus) et qu'ils aient été vaincus en moins de coups. Cela semble aller à l'encontre des jeux légèrement plus courts joués par le groupe de notation supérieur, bien que cela puisse contribuer à une taille d'échantillon plus petite.

Les différences relativement importantes dans la durée moyenne du jeu signifient que fournir la fréquence de déplacement d'une certaine pièce, plutôt que le nombre total de fois qu'une pièce est déplacée, est peut-être la comparaison la plus juste. Le calcul des fréquences donne le graphique suivant:

Déplacer les fréquences par morceau

Les tendances suivantes semblent être présentes:

  • La fréquence des mouvements de chevalier semble tendre légèrement à la baisse avec la notation.
  • Bishop déplace la tendance à la baisse jusqu'en 2000 environ, puis tend lentement à la hausse.
  • Les mouvements de tour ont tendance à fortement augmenter à peu près au même point, et restent plus fréquents que les mouvements de Bishop dans un jeu de haut niveau.
  • Les mouvements de pions semblent tendre légèrement à la baisse avec une note accrue. Une grande exception est la catégorie supérieure, 2800 à 2900. Cela nous amène au point suivant:
  • La catégorie de notation la plus élevée fournit des valeurs aberrantes ou des contre-tendances dans un certain nombre de mesures. Cela peut s'expliquer de diverses manières - 1) la taille de l'échantillon est assez faible à 363, pas minuscule, mais 10% de la plus petite taille d'échantillon suivante incluse. 2) Puisqu'ils sont au sommet des classements, ils ne jouent jamais contre des adversaires "plus forts" qu'eux. 3) Ou simplement à ce niveau, leur style de jeu a transcendé les niveaux en dessous d'eux. Ma conjecture serait une combinaison de 1) et 2).
  • Les différences entre les mouvements de reine et les mouvements de roque sont très petites sans aucune tendance réelle, à part une petite tendance à la baisse dans les deux cas.
  • La fréquence des mouvements du roi présente certaines des plus grandes différences. Aucune tendance claire n'est visible, et elle semble changer de direction 3 ou 4 fois.

Analyse approfondie

Quelques idées pour une analyse future:

  • Corrections statistiques de base: Je pense que les jeux extrêmement courts et longs devraient probablement être exclus. De plus, la distribution des chiffres réels pourrait être très révélatrice.
  • Le fractionnement de l'analyse plus loin peut également donner des résultats intéressants. Par exemple, je serais intéressé de savoir comment les fréquences du noir et du blanc correspondent (sont-elles les mêmes ou différentes? Pourquoi?).
  • La catégorisation par différence de note peut également être intéressante, les joueurs jouant un adversaire beaucoup plus fort (disons 200 notes au-dessus d'eux) jouent-ils avec des fréquences de mouvement différentes? Malheureusement, cela nécessite que l'ELO des deux joueurs soit connu, ce qui est rare dans cet ensemble de données.
  • La tendance au château court par rapport au château long peut également varier selon la note.
  • Les statistiques de promotion des pièces, certaines analyses structurelles légères (par exemple, l'incidence des pions doublés, en passant, des épingles, des fourchettes, indiquées par évaluation) pourraient être utiles.
  • Les "cartes thermiques" du placement des pièces sur le plateau réel, affichées par note, peuvent également être assez intéressantes.

Agréger des données au format CSV

Pour ceux qui veulent jouer avec les données, n'hésitez pas.

Plage de notation, taille de l'échantillon, durée moyenne du jeu, mouvements de pion moyens, mouvements de chevalier moyens, mouvements d'évêque moyens, mouvements de tour moyens, mouvements de reine moyens, mouvements de roi moyens, roque moyen

1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857
Daniel B
la source
Agréable! Merci d'avoir exécuté les chiffres ici. Soit dit en passant, si vous pensez que l'une des idées de votre section "Analyse approfondie" est mûre pour être interrogée, n'hésitez pas à le faire.
ETD
1
@EdDean merci, et je ferai probablement une analyse plus approfondie lorsque le temps le permettra. J'ai également remarqué d'autres améliorations qui peuvent être apportées (par exemple, filtrage des blitz et des jeux simultanés, et peut-être d'autres), donc cela va probablement être un peu de travail. Je créerai une mise à jour quand j'aurai quelque chose.
Daniel B
1
Sensationnel. C'était tout à fait une réponse. Fantastique.
James Tomasino
3
Je ne serais pas surpris si, par exemple, l'augmentation du nombre de mouvements de tour parmi les joueurs forts signifie simplement qu'ils sont plus susceptibles de se retrouver dans de longues fins de tour, plutôt que de déplacer des tours plus souvent dans des positions similaires.
dfan
3
@dfan Je suis d'accord, ces chiffres pourraient avoir plus à voir avec divers effets de second ordre, par exemple, les joueurs les moins bien notés gaffent tôt et ne se lancent pas dans une longue phase finale, etc. J'ai différentes idées sur la façon dont cela pourrait être rendu plus précis, mais malheureusement pas le temps de les mettre en œuvre.
Daniel B