Cheating, Rating und Spaghetti: Wie die Corona-Pandemie das Schachsystem aus dem Takt brachte

Eine der umstrittensten Reformen im internationalen Schach war die Anpassung der FIDE-Ratings Anfang 2024 für Spieler unter 2000 Elo: Das Mindest-Rating wurde von bislang 1000 auf 1400 Elo angehoben, und alle Spieler:innen zwischen 1000 und 2000 bekamen eine automatische Rating-Erhöhung. Ab 2000 Elo blieb alles unverändert. Viele Beobachter hielten die Maßnahme für eine künstliche „Inflation“ des Systems. Dr. Kenneth Regan, Mathematiker und führender Experte für statistische Betrugserkennung im Schach, widerspricht dem – mit Daten.

Professor Kenneth Regan im Rating-Gespräch mit IM Kostya Kavutskyi, IM David Pruess und GM Jesse Kraai.

„Das war tatsächlich keine Inflation, sondern eine Korrektur“, stellt Regan gleich zu Beginn eines Gesprächs mit dem “ChessDojo” klar. Die Maßnahme habe eine bereits vorher bestehende Deflation im unteren Bereich des Rating-Systems behoben. Spieler mit einem Rating von etwa 1700 hätten deutlich stärker gespielt, als ihr Wert aussagte. Dadurch verloren stärkere Spieler bei Remis oder Niederlagen gegen sie mehr Punkte als gerechtfertigt. Regan nennt als Beispiel eine Spielerin, die mit 1845 Elo in Europa auflief, in Wahrheit aber bereits auf 2300-Niveau spielte – und dadurch starke Gegner unverdient Punkte kostete. „Es war tatsächlich so, dass man beim Spielen gegen unterbewertete Gegner Punkte verloren hat, obwohl die Erwartungen eigentlich andere waren.“

“Auseinandergezogen wie Spaghetti”

Ursprünglich reichte das FIDE-Rating bis auf 1000 Punkte hinab. Doch diese untere Grenze erwies sich als Problem. Kinder oder Einsteiger, die schnell Fortschritte machten, „zerstörten das System“, wie es Großmeister Jesse Kraai ausdrückt. Regan ergänzt, dass diese Spieler deutlich unterbewertet waren: „Ihr echtes Spielniveau lag 300, 400 oder sogar 600 Punkte über dem Rating.“ Besonders drastisch sei dieser Effekt während der Pandemie gewesen, als sich viele Junioren im Onlineschach stark verbesserten, ihre offiziellen Ratings aber über Jahre hinweg eingefroren blieben.

Werbung

Die Entscheidung, das Mindest-Rating auf 1400 anzuheben, sollte diesem Effekt entgegenwirken. Regan verweist auf die statistische Grundlage des Systems: Ein Unterschied von 200 Punkten soll eine Gewinnwahrscheinlichkeit von etwa 75 % für den stärkeren Spieler bedeuten. „Doch unterhalb von 2000 war dieses Verhältnis völlig verzerrt“, sagt er. „Das System war dort so auseinandergezogen wie Spaghetti.“

Lineare Leistungsentwicklung

Ein zentraler Punkt in Regans Analyse ist das Prinzip der Linearität: Die Spielstärke sollte sich möglichst gleichmäßig entlang der Rating-Skala entwickeln. „Ich habe festgestellt, dass meine Messgrößen – also etwa, wie oft ein Spieler mit dem ersten Zugvorschlag der Engine übereinstimmt oder wie groß seine Fehler sind – linear mit der Spielstärke korrelieren sollten“, erklärt Regan. Wenn die tatsächlichen Leistungen unter 1800 aber nicht zur Rating-Kurve passen, ist das ein Anzeichen für Verzerrung. Deshalb habe er seine Modelle von einer einfachen linearen Regression auf komplexere Funktionen umgestellt, bis die Korrektur durch die FIDE den „Knick“ bei 2000 Ratingpunkten wieder geglättet habe.

Doch Regan ist nicht restlos zufrieden: „Vielleicht war die Korrektur zu großzügig im Bereich zwischen 1300 und 1600“, meint er. Seine eigenen Messdaten zeigen, dass die Fehlerquote vieler Spieler dort höher liegt, als es zur neuen Linie passt.

Wenn er sich nicht mit Schach beschäftigt, ist Kenneth Regan Professor an der Fakultät für Informatik und Ingenieurwesen der University at Buffalo. | via Champions Chess Tour/YouTube

Cheating: Was Engines über uns verraten

Ein weiterer großer Themenblock des Gesprächs ist die Betrugserkennung. Regan verwendet dazu ein ausgeklügeltes Modell, das nicht nur misst, wie häufig ein Spieler mit der Engine übereinstimmt, sondern auch, wie „kompliziert“ die jeweilige Stellung ist. Seine Modelle bewerten die Qualität von Zügen nicht absolut, sondern im Kontext: „Ich analysiere, wie sehr sich die Bewertung während der Engine-Suche verändert. Wenn ein Zug bei niedriger Rechentiefe gut aussieht, aber bei tieferer Analyse schlecht ist, fließt das in die Bewertung ein.“

Mit diesem System könne man sehr genau die tatsächliche Spielstärke einer Person ermitteln – unabhängig vom Ergebnis. „Ich nenne das den ‚intrinsic performance rating‘“, sagt Regan. Diese Methode ermögliche es auch, historische Partien zu analysieren. So habe etwa Paul Morphy in einer frühen Version seines Modells nur knapp unter 2400 gelegen, inzwischen sehe er ihn bei etwa 2475.

Der Pandemie-Effekt

Obwohl die FIDE-Korrektur den unteren Bereich des Systems angepasst hat, sieht Regan weiterhin einen „Pandemie-Lag“ bei vielen jungen Spielern, ein kollektives Nachhinken der Ratings hinter der tatsächlichen Spielstärke. Er verweist auf die Weltmeisterschaft der Junioren 2024: „Die Teilnehmer haben im Schnitt 100 Punkte über ihrem offiziellen Rating gespielt“, sagt er. Diese Abweichung sei teilweise natürlich – junge Spieler entwickeln sich schnell –, aber auch ein Überbleibsel der Pandemiezeit, in der viele Ratings über Jahre stagnierten. Regan geht davon aus, dass sich dieser Rückstand langfristig normalisieren wird, warnt aber vor vorschnellen Urteilen über stark spielende Jugendliche mit „zu niedrigem“ Rating.

Wie viele betrügen wirklich?

Regans Zahlen zur Häufigkeit von Betrug überraschen: „Im klassischen Schach liegt die Rate vermutlich bei 1 zu 5000 bis 1 zu 10.000“, sagt er. Deutlich höher sei sie online, dort könne man eher mit 1 zu 100 oder 1 zu 50 rechnen. Wichtig sei dabei, dass seine Tests extrem hohe Beweissicherheit liefern müssen – vergleichbar mit Wahlprognosen in den USA: „Ich arbeite mit einer Zielgenauigkeit von 99,5 Prozent, das entspricht einer Fehlerwahrscheinlichkeit von 1 zu 200.“

Werbung

Sein System könne zwar nicht exakt sagen, welche Züge geschummelt waren, wohl aber, ob das Gesamtbild statistisch erklärbar sei oder nicht. Im Fall von Igors Rausis, der 2019 mit einem Handy auf der Toilette erwischt wurde, hätten seine Daten eine Spielstärke im Bereich von 2800 Elo angezeigt – deutlich über Rausis’ offiziellen Zahlen.

Cheating-Quote am Brett 1:500 bis 1:10.000? Als im Sommer 2024 (wie in jedem Sommer) zahlreiche Open liefen, verging kaum eine Woche ohne neuen Fall. Und da ist ja noch das Dunkelfeld unbekannter Größe.

Technik, Training, Transparenz

Dr. Regan sieht großes Potenzial in seinem Modell – nicht nur zur Betrugserkennung, auch als Trainingswerkzeug. „Ich kann erkennen, ob ein Spieler taktisch oder strategisch schwach ist, und welche Stellungen ihm liegen“, erklärt er. Zwar sei sein Modell ursprünglich nicht für den Massenmarkt gedacht („Ich baue ein Präzisionsinstrument, kein Auto“), doch er würde eine einfachere Version zur Verfügung stellen – etwa für Turnierausrichter oder als öffentliches Werkzeug. Ein Hindernis sei jedoch, dass die FIDE selbst seine Vorschläge bisher nicht öffentlich umgesetzt habe: „Ich habe eine offene Datenstruktur geschaffen, aber niemand nutzt sie.“

4.4 8 votes
Article Rating
Werbung

Abonnieren
Benachrichtige mich bei
guest

6 Comments
Most Voted
Newest Oldest
Inline Feedbacks
View all comments
Gerhard Lorscheid
Gerhard Lorscheid
29 Tage zuvor

Ich verstehe nicht wie ein Schwätzer wie Regan Professor sein kann. Wenn man in dem System einer Gruppe Punkte schenkt, ändert dies gar nichts, denn die Spieler werden gegeneinander mit dem gleichen Erfolg spielen wie bisher und damit werden sich auch die neuen Punkte gleichmäßig auf alle Spieler verteilen. Ich denke so 50 werden bei Magnus Carlsen davon ankommen. Nur wenn ich nun gegen einen mit 1700 spiele, muss ich schauen ob es ein Vielspieler ist, der die Punkte schon wieder abgegeben hat oder ein aufgewerteter 1500er. Durch die Anhebung des Bodens werden in Zukunft viele auf dem Weg zu… Weiterlesen »

Fluffy
Fluffy
28 Tage zuvor

Ein interessanter Beitrag, der bei mir einige Fragen aufwirft Dr. Kenneth Regan wird als der Mathematiker und führender Experte für statistische Betrugserkennung im Schach bezeichnet. Gibt es eigentlich auch noch andere Experten? Ich habe keine öffentlich zugänglichen gefunden. so fokussiert sicht die ganze ELO und Cheating Diskussion immer auf die Person und Argumente von Prof Kenneth Regan. Ich habe natürlich keinen Zweifel an seiner generellen fachlichen Expertise, aber einige Argumente und Aussagen von ihm entbehren nicht einer gewissen Unlogik. So zum Beispiel “Regan nennt als Beispiel eine Spielerin, die mit 1845 Elo in Europa auflief, in Wahrheit aber bereits auf 2300-Niveau spielte… Weiterlesen »

chesshans
chesshans
29 Tage zuvor

“Fun Fact”: Im Laufe des Jahres wird voraussichtlich eine analoge Anpassung der DWZ geben.

Thomas Richter
Thomas Richter
27 Tage zuvor

Es mag durchaus sein, dass einige bis viele mit der alten Zahl unterbewertet waren – das gab es schon immer, aber vielleicht in letzter Zeit verstärkt. Aber von der Korrektur profitierten alle – unabhängig von Alter, Land und ob es Anzeichen gab, dass sie unterbewertet waren. Auch Spieler, für die es zuvor eher bergab ging oder die zuletzt (recht) inaktiv waren. Das geht wohl nicht anders, sonst bräuchte man komplizierte und willkürliche Regeln. Zum Beispiel bei Altersgrenze: ein 18-jähriger und ein 19-jähriger waren zuvor nominell gleichwertig, und plötzlich ist der 18.jährige besser weil nur seine Zahl korrigiert wird?? Oder nur… Weiterlesen »