Y a-t-il eu beaucoup de recherches sur la notation de l'inflation?

24

Le tirage au sort de Magnus Carlsen lors de la ronde d'hier du London Chess Classic 2012 a assuré que sa note dans la prochaine liste FIDE publiée dépasserait le précédent record de 2851 de Kasparov. contre, disons, Fischer. Pour être clair, ce n'est pas ce que je recherche ici.

Un élément crucial de ces discussions est la notion de savoir si les notes Elo en général ont subi l'inflation au fil du temps: y a-t-il tellement plus de 2700+ grands-maîtres aujourd'hui qu'il y a 20 ans en raison d'une augmentation générale de la force de jeu, ou tout simplement à cause de certains tendance inflationniste globale dans les chiffres? Je n'essaie pas non plus de solliciter des opinions nues sur le fait que ce soit le cas ou non. Ce que je voudrais savoir:

Quelles recherches sérieuses ont été faites pour répondre à la question empirique de savoir si les notations FIDE Elo se sont naturellement gonflées au fil du temps en raison d'autre chose que d'une augmentation de la force globale du bassin de joueurs?

L'entrée de Wikipedia sur le système de notation Elo a un peu à dire sur la question, et pointe également sur un article de Jeff Sonas de Chessmetrics . En plus de tous les conseils pour travailler par d'autres, je serais, pour ma part, également favorable à une réponse qui donne un résumé clair et concis des principaux points de Sonas.

ETD
la source
Une autre chose à penser est l'inflation des notes USCF. Il y a eu, et périodiquement, l'USCF fait des ajustements beaucoup à l'horreur des joueurs. Étant donné que l'USCF et la FIDE utilisent le même système, fondamentalement, je serais surpris si l'inflation pouvait affecter l'USCF et non la FIDE.
Tony Ennis
2
Les systèmes ne sont pas les mêmes, par exemple l'USCF a des planchers de notation qui sont clairement un facteur inflationniste.
RemcoGerlich

Réponses:

19

Je suis surpris que le document "Intrinsic Chess Ratings" de Ken Regan et Guy Haworth n'ait pas encore été publié. C'est exactement ce qui est demandé, une recherche sérieuse sur la notation de l'inflation. PDF

Fondamentalement, ils ont obtenu des jeux de trois périodes (1976-1979, 1991-1994, 2006-2009), dans plusieurs gammes de notes (par exemple, les deux joueurs dans les 10 points de 2200, dans les 10 points de 2300, etc.), et ont exclu les types de jeux qui peut être anormal, comme les matchs par équipe. Lisez le document, il a l'air assez complet.

Ils ont ensuite comparé systématiquement les jeux avec Rybka 3.

Quelques phrases de la conclusion:

Nous concluons qu'il existe une relation harmonieuse entre les notes Elo des joueurs réels et la qualité intrinsèque des choix de coups mesurés par le programme d'échecs et l'adaptation de l'agent. De plus, les valeurs d'ajustement finales obtenues sont presque les mêmes pour les entrées correspondantes des trois périodes.

À mon avis, c'est une preuve assez solide contre l'existence d'une inflation de notation.

RemcoGerlich
la source
1
Merci d'avoir posté ça, je suis aussi venu partager ça. C'est la seule ligne de recherche qui a comparé les joueurs à une norme objective. Tous les arguments que j'ai vus pour évaluer l'inflation sont subjectifs et généralement anecdotiques. Sur une note personnelle, je ne pense pas que le fait que Morphy était probablement à 2300 enlève à mon appréciation de ses jeux ou ses compétences par rapport à ses concurrents à l'époque.
Sam Copeland
12

J'en ai fouillé quelques-uns. Vous avez probablement vu ces pages, mais je les posterai quand même:

une. Cette page vous intéressera . Il comprend une photocopie d'une lettre d'Elo lui-même indiquant la possibilité:

Ainsi, au fil du temps, l'échelle de notation pourrait dériver à moins que certaines mesures ne soient prises pour la stabiliser.

Il mentionne en outre que l'échelle de notation n'a pas d'ancrage, pas de point fixe. Comparez avec un athlète qui court une course en une heure; une heure est maintenant la même qu'il y a 50 ans. Le temps est un point fixe.

b. De plus, la question de l'inflation n'a-t-elle pas déjà été répondue par des révélations récentes de notes élevées provenant de régions isolées? Voir la section "Pool de joueurs" de cette page pour une allusion au problème. Un soutien supplémentaire , bien qu'il ne soit ni savant ni particulièrement informatif. Recherchez "isol". Voici une autre anecdote montrant ce qui se passe avec des populations isolées (et un autre candidat pour le fil `` Pourquoi les joueurs d'échecs sont-ils fous ''!) Je n'ai pas vérifié les faits, mais cela devrait être assez facile à faire.

c. L' article wiki d'Elo parle de l'inflation comme si c'était un fait accepté.

ré. Voici un article pertinent sur l'inflation et le suivi . Regardez ce pistolet fumant en 1986!

Tony Ennis
la source
Je n'avais pas vu la page d'un., Merci pour cela. Concernant b., Je ne sais pas de quoi vous parlez; peux-tu élaborer?
ETD
2
Je dirais que sans ancrage réel, il est impossible de régler avec précision; à la fin, nous nous ajustons simplement de façon anecodatique vers une valeur arbitraire.
Daniel B
Peut-être. Mais l'ajustement des notes pour produire une courbe de distribution similaire serait probablement un bon début. Par exemple, il y a quelques années, l'USCF ajuste les cotes de sorte que le joueur de club moyen était un 1500. Je ne sais pas s'ils le font toujours.
Tony Ennis
1
@TonyEnnis Bien sûr, et je pense que c'est probablement aussi bon que ça va l'être, pour l'instant. Plus précisément, je veux dire: que se passe-t-il si le "joueur de club moyen" est aujourd'hui meilleur qu'il y a 50 ans? Ce n'est pas comme si nous pouvions les amener à jouer contre des joueurs du passé ... Il nous reste donc à estimer la force des joueurs et à les ajuster. Peut-être qu'avec des programmes informatiques (exécutés sur une plate-forme standard et prescrite), nous pourrions avoir une sorte d'ancrage impartial et durable. Mais même cela aurait des problèmes, tels que la découverte de stratégies qui fonctionnent bien par rapport au programme de référence, etc.
Daniel B
5

En termes absolus, Carlsen 2012 est à coup sûr un joueur plus fort que Kasparov 1985.

Si Carlsen 2012 voyageait dans le temps pour jouer un match avec Kasparov 1986, Carlsen battrait Kasparov. C'est tout simplement parce que la préparation assistée par la technologie est beaucoup plus efficace, et Carlsen a également un avantage dans la théorie de l'ouverture, car il possède les connaissances accumulées 1987-2012 que Kasparov n'a pas.

Cependant, Kasparov est probablement un joueur plus fort que Carlsen. Si nous prenons la liste FIDE Top 100 pour juin 2000 (la plus ancienne qui puisse être obtenue), nous voyons que Kasparov avec 2849 Elo rivalise avec une moyenne de 2641 pour les 99 followers (distance Elo 208 points) tandis que Calsen dans Fide Top 100 pour décembre 2012 avec un 2848 Elo rivalise avec une moyenne de 2702 pour ses 99 followers (distance Elo de 146 points).

Elo concerne la différence de points, pas les valeurs absolues (100 points de différence pour Elo signifient que le joueur A est 2 fois meilleur que le joueur B, 200 points signifie 4 fois mieux, et ainsi de suite. Donc avec cette liste, cela signifiait que Kasparov était en moyenne plus de 4 fois meilleur que tous ses 99 followers, alors que Carlsen n'est probablement que 3 fois meilleur que la moyenne de ses 99 followers.

Si nous prenons la liste où Kasparov a la distance maximale avec ses 99 abonnés et comparons cette distance avec la meilleure pour Carlsen, nous serons en mesure de déterminer quel joueur était en fait le plus grand, car avec 99 points de données, les valeurs aberrantes (comme un autre génie) obtenez l'atténuer.

Je me demande cependant si Carlsen ou Kasparov se soucient vraiment de savoir qui était le meilleur.

Dynamisme
la source
3
Votre argument selon lequel Kasparov est un joueur plus fort que Carlsen repose sur la comparaison de chacun des 99 meilleurs joueurs suivants. Vous notez, à juste titre, que les cotes Elo sont relatives, mais votre argument fait une deuxième hypothèse non affirmée, à savoir que les 99 prochains joueurs d'aujourd'hui ont la même force de jeu moyenne que les 99 prochains de l'apogée de Kasparov. Si cette deuxième hypothèse n'est pas vraie, vous comparez Kasparov et Carlsen à des normes différentes. Vous devez trouver un bassin de personnes qui sont les mêmes aujourd'hui qu'à l'époque de Kasparov. Cette piscine est probablement votre débutant moyen, pas les super-grands-maîtres.
Thucydides411
4

Le système d'Elo avait deux composants. L'un était indépendant de l'histoire, l'autre ne l'était pas. Son système de création d'une «cote de performance» au cours d'un événement ou d'une période de temps n'avait aucun élément historique; c'était simplement une mesure de la performance sur la période spécifiée. (La mémoire me manque sur ce point, mais je pense que lorsqu'il calculait les notes pour la FIDE, c'était la méthode qu'il avait utilisée.)

Cependant, le système Elo utilisé par les fédérations du monde entier a une composante historique, en ce sens que les notes sont calculées en calculant un delta, un changement par rapport à la note précédente.

Le système historique a une tendance naturelle à la déflation. Le système est un système fermé, sans nouveaux points créés. Ainsi, de nouveaux joueurs entrent, prennent des points aux joueurs établis, puis quittent (par la mort ou la retraite) avant de retourner tous ces points au lot suivant de joueurs en hausse.

De nombreuses idées ont été essayées pour compenser cela, certaines fonctionnant mieux que d'autres. Ajoutez à cela la pression commerciale dans l'USCF du début des années 70 pour accélérer l'augmentation des cotes (l'opinion plutôt cynique était que les joueurs achèteraient un livre de l'USCF et joueraient dans un tournoi, leur cote augmenterait, les encourageant à en acheter un autre livre, etc.) et l'inflation a été une réalité à certains moments de l'histoire.

Puisque le système d'Elo était basé sur une courbe normale (en cloche), il est absurde d'essayer de mesurer l'inflation en mesurant l'une ou l'autre extrême; les extrêmes sont plus susceptibles d'être affectés par le nombre total de joueurs notés que par des changements dans la force réelle ou toute sorte d'inflation.

Arlen
la source
1

J'ai une idée simple. Prenons un ordinateur d'échecs (matériel + logiciel) dont la cote était mesurée il y a 20 ans, en jouant avec d'autres ordinateurs d'échecs dont la cote était connue il y a 20 ans. Maintenant, mesurons sa cote maintenant (exactement le même matériel et exactement le même logiciel), en jouant avec des ordinateurs d'échecs modernes, avec une cote connue aujourd'hui. La différence de deux mesures constituerait une inflation de notation pour les 20 dernières années. Assez simple?

alex1220
la source
Il calculerait plus ou moins l'inflation des notes pour les ordinateurs , pas pour les joueurs humains. Les humains jouent différemment contre les ordinateurs entre eux.
Glorfindel
1

Les conclusions de l'article de Regan-Haworth doivent être prises avec un grain de sel, car elles semblent contredire d' autres analyses informatiques de jeux, sur de meilleurs logiciels et matériels et avec des méthodes mathématiques plus avancées. Ils y concluent (voir tableau 9), par exemple, que Karpov en 1977 a joué à un niveau légèrement inférieur à Kasparov en 2001 et Anand en 2008 (devrait marquer environ 47% des points), et en fait mieux que Topalov en 2005 et Ponomariov en 2011. Étant donné que Kasparov-2001 est 150 points plus élevé que Karpov-1977, la note s'attendrait à ce qu'il marque 70% des points. Je ne vois pas comment concilier cela avec l'affirmation qu'il n'y a pas eu d'inflation de notation.

Notez également que, contrairement à l'affirmation implicite de la question, il n'y a pas de mécanisme par lequel la notation refléterait un changement de la force globale du pool de joueurs . Il pourrait être empiriquement le cas qu'une force typique d'un joueur 2600 n'a pas changé au cours d'une certaine période de temps, mais ce serait simplement une coïncidence plutôt qu'un reflet des propriétés fondamentales du système ELO, et certainement pas généralisable.

Si nous définissons plutôt l'inflation naïvement et mesurons simplement la note moyenne des 100 meilleurs joueurs, alors, comme on peut le voir sur ce lien , il y a eu une inflation stable jusqu'en 2012 et aucune inflation depuis - la cote moyenne des 100 premiers a oscillé entre 2700 et 2705 pour les 7 dernières années .

Kostya_I
la source
0

Tout d'abord, vous devez définir ce que vous entendez par le meilleur. Par exemple, cela signifie-t-il que vous êtes le joueur le plus dominant de votre époque? Ou cela signifie-t-il que la qualité de votre joueur est supérieure à tous les autres joueurs. Et si la qualité est ce que vous voulez dire, comment définissez-vous la qualité?

Paul Morphy était probablement le joueur le plus dominant. Par exemple, à l'âge de 12 ans, il a battu un des dix meilleurs joueurs (Lowenthal) dans un match 3-0. Selon Edo et chessmetrics, il était probablement déjà l'un des meilleurs joueurs du monde à l'âge de 12 ans! À l'âge de 21 ans, il a joué contre un simultané contre 5 des dix meilleurs joueurs (Bird, Barnes, Boden, De Reviere et Lowenthal) et a marqué 3-2.

Cependant, la plupart diraient que la domination est un mauvais indicateur de qui est le meilleur. Après tout, Morphy a été décrit comme le premier joueur d'échecs moderne. Sa compétition était faible par rapport aux champions suivants.

Une autre définition qui a été utilisée est la qualité de jeu. Cependant, cette définition pose également de nombreux problèmes. Dans les centaines de 1900, un certain nombre de personnes ont fait valoir que Steinitz ou Lasker étaient les meilleurs joueurs de tous les temps, faisant valoir que leur connaissance de l'ouverture et de la théorie moderne les rendraient supérieurs aux joueurs du passé. Cependant, Louis Paulsen a avancé des arguments très intelligents contre cette hypothèse. Il a soutenu que Morphy (qui avait une mémoire photographique et mémorisait le code à barres de la Louisiane à l'âge de 19 ans) s'il était ramené à la vie apprendrait les ouvertures et la théorie moderne dans un an et serait en mesure de rivaliser avec succès contre les joueurs d'échecs modernes.

Regan soutient que les joueurs d'échecs modernes qui ont accès aux ordinateurs d'échecs et aux méthodes d'entraînement modernes jouent plus comme des ordinateurs que les joueurs du passé. Ce n'est pas surprenant car ils ont été formés par des ordinateurs mais cela signifie-t-il que les joueurs modernes sont vraiment meilleurs? Cela pose la question que feraient Fischer ou Capablanca s'ils avaient accès à des ordinateurs modernes?

De plus, l'ordinateur d'analyse du professeur Regan me semble assez incomplet car il ne concerne que quelques périodes de cinq ans et les acteurs inclus dans l'analyse ne sont pas mentionnés. Une analyse informatique plus approfondie par les professeurs Matej Guid et Ivan Bratko a révélé qu'en fait, Capablanca jouait plus comme un ordinateur que les joueurs modernes! https://en.chessbase.com/post/computers-choose-who-was-the-strongest-player-. Cependant, Guid et Bratko ont noté qu'il y avait un problème à en conclure que Capablanca était un meilleur joueur. Peut-être que son style plutôt calme a conduit à moins de positions où il serait susceptible de gaffer. Par conséquent, son pourcentage d'erreur était plus faible, mais il mettait également moins de pression sur ses adversaires que les joueurs plus agressifs. En fait, Capablanca avait un pourcentage de tirage élevé par rapport à ses contemporains.

En revanche, un joueur très tactique comme Kasparov pourrait être pénalisé par son style de jeu qui était plus susceptible de conduire à des positions très tactiques où les ordinateurs sont particulièrement bons pour trouver des erreurs. En fait, les ordinateurs ont tendance à mieux performer contre les joueurs tactiques que les joueurs positionnels ou en position fermée où les tactiques jouent un rôle de bailleur. Ainsi, une analyse informatique qui s'appuie sur le nombre d'erreurs détectées par ordinateur est susceptible de favoriser les joueurs en position fermée calmes. En revanche, un joueur agressif comme Kasparov peut faire plus d'erreurs tactiques que certains autres joueurs car il a cherché des positions très complexes mais ses adversaires en feront encore plus!

Par conséquent, vous avez besoin d'un système de pondération des erreurs qui ne se contente pas de calculer le pourcentage d'erreurs par 100 mouvements (ce qui est essentiellement ce que Regan et Guid et Bratko ont fait). Au lieu de cela, vous devez calculer la différence entre votre taux d'erreur et le taux d'erreur de vos adversaires. Après tout, les échecs consistent à commettre moins d'erreurs que votre adversaire. Faire pression sur votre adversaire pour provoquer plus d'erreurs est considéré comme une bonne qualité.

Cependant, ma méthode de calcul révisée conduit à un autre problème qui est que ces analyses informatiques ne prennent pas en compte la force de votre adversaire. Par exemple, Larson obtient peut-être une note d'échecs très élevée parce que son style agressif (optimiste) a conduit à la domination sur les joueurs les moins bien notés. Cependant, il a eu du mal à jouer contre des joueurs de même niveau. D'autres joueurs ont souvent soutenu qu'il était trop optimiste dans son jeu contre d'autres joueurs de haut niveau. Pour éviter ce problème, l'analyse de la vérification des erreurs informatiques ne devrait porter que sur les matchs contre des concurrents puissants (par exemple, les 10, 20 ou 100 meilleurs joueurs). Cependant, cela ne résout toujours pas le problème de l'augmentation de la forte concurrence au fil du temps.

Le problème de l'augmentation de la qualité de jeu peut-il être corrigé en examinant les notes rétrospectives comme Chessmetrics? En fait, je préfère le système de notation arrière Edo http://www.edochess.ca/parce que les hypothèses statistiques sont meilleures. Par exemple, Chessmetrics suppose que la cote maximale d'un joueur se produit lorsqu'il a 40 ans. Je doute que cela soit vrai pour tout le monde et de nombreux joueurs abandonnent les échecs avant cet âge ou leur jeu n'était de premier ordre que depuis quelques années (par exemple, Harry Nelson Pillsbury, Charousek, Fischer, Morphy, Rubinstein, Fine). Malheureusement, Edo ne compare que les notes des joueurs de 1811 à 1920. Selon Edo, Capablanca et Morphy sont classés comme les deux meilleurs joueurs de cette époque. Selon Chessmetrics, Capablanca et Lasker étaient les deux meilleurs joueurs (Morphy ne fait même pas partie du top 10.) Selon Chessmetrics, Zukertort, Steinitz, Tarrasch, Lasker, Pillsbury, Maroczy, Marshall, Janowsky, Chigorin, Schelecter, Blackburne, Duras, Teichmann, Neumann, Vidmar, Gunsberg, Rubinstein et Burn étaient meilleurs que Morphy.

Si l'innovation conduit à la domination dans une ère d'échecs spécifique au fil du temps et qu'il devient de plus en plus difficile d'innover au fil du temps à mesure que la force de la compétition augmente, vous ne pouvez pas mesurer la véritable domination en regardant simplement les records de match des 30 meilleurs joueurs. Autrement dit, il est beaucoup plus difficile pour Magnus Carlsen de dominer ses adversaires que pour les anciens champions. Si vous regardez les notes rétrospectives, il est facile de voir que l'ampleur de la différence entre les notes des meilleurs joueurs a diminué au fil du temps. Je pense donc qu'un modèle statistique de type Edo qui prend en considération la difficulté à dominer dans le temps serait une meilleure approche que ce qui a été essayé précédemment. Par exemple, Fischer était un joueur assez dominant pour son époque car il a remporté 20 matchs de suite. Quelle a été la séquence de victoires la plus longue de Kasparov ou de Karpov par rapport à cette séquence de victoires? Selon Seirawan, leurs séquences de victoires les plus longues ont été de sept matchs.

Bien sûr, je ne prétends pas que les séquences de victoires sont une bonne mesure. Je dis simplement que la domination par les notes ou lors de matchs individuels contre d'autres joueurs de haut niveau est une mesure utile qui n'est pas explicitement prise en compte dans les systèmes de notation actuels.

Donc, mon analyse de rêve est que vous utilisez les évaluations Edo basées sur une base de données qui ne comprend que les 20 ou 30 meilleurs joueurs de chaque période de cinq ans. Après avoir terminé cette analyse, vous pondérez vos résultats par un facteur de dominance. C'est-à-dire que les joueurs plus récents obtiennent un facteur bonus qui est calculé en estimant la trajectoire de difficulté de dominer dans le temps (la diminution des disparités de notation entre les 30 meilleurs joueurs au fil du temps). Ensuite, vous valideriez cette analyse en comparant le pourcentage de joueurs des échecs calculés par ordinateur d'échecs que leurs adversaires font moins leurs propres erreurs. Si cela invalide ce qui précède, alors vous devez repondérer en fonction de l'analyse de vérification des erreurs de l'ordinateur si cela montre qu'il y a une tendance pour les meilleurs joueurs plus récents à jouer plus précisément même après que mon facteur de dominance est pris en considération.

Ma conjecture sur la base de mes yeux, c'est que Kasparov ferait très bien. Mais ce n'est qu'une supposition.

ToddM
la source
2
Cela ne semble pas répondre à la question.
Herb Wolfe
Mon point est que vous ne pouvez pas répondre à la question de l'inflation avant d'avoir défini la capacité d'échecs. J'ai examiné des recherches tentant d'ajuster l'inflation de la notation ou de déterminer comment les capacités des champions d'échecs varient au fil du temps (c'est à cela que sert l'inflation de la notation). Je crois que le problème est que les chercheurs n'ont pas vraiment identifié leurs hypothèses sur ce qu'ils pensent être la capacité d'échecs. À mon avis, sans définir la capacité d'échecs, vous ne pouvez pas répondre à la question de savoir si la capacité d'échecs change avec le temps ou dire quoi que ce soit au sujet de l'inflation.
ToddM