Eine der umstrittensten Reformen im internationalen Schach war die Anpassung der FIDE-Ratings Anfang 2024 für Spieler unter 2000 Elo: Das Mindest-Rating wurde von bislang 1000 auf 1400 Elo angehoben, und alle Spieler:innen zwischen 1000 und 2000 bekamen eine automatische Rating-Erhöhung. Ab 2000 Elo blieb alles unverändert. Viele Beobachter hielten die Maßnahme für eine künstliche „Inflation“ des Systems. Dr. Kenneth Regan, Mathematiker und führender Experte für statistische Betrugserkennung im Schach, widerspricht dem – mit Daten.
„Das war tatsächlich keine Inflation, sondern eine Korrektur“, stellt Regan gleich zu Beginn eines Gesprächs mit dem “ChessDojo” klar. Die Maßnahme habe eine bereits vorher bestehende Deflation im unteren Bereich des Rating-Systems behoben. Spieler mit einem Rating von etwa 1700 hätten deutlich stärker gespielt, als ihr Wert aussagte. Dadurch verloren stärkere Spieler bei Remis oder Niederlagen gegen sie mehr Punkte als gerechtfertigt. Regan nennt als Beispiel eine Spielerin, die mit 1845 Elo in Europa auflief, in Wahrheit aber bereits auf 2300-Niveau spielte – und dadurch starke Gegner unverdient Punkte kostete. „Es war tatsächlich so, dass man beim Spielen gegen unterbewertete Gegner Punkte verloren hat, obwohl die Erwartungen eigentlich andere waren.“
“Auseinandergezogen wie Spaghetti”
Ursprünglich reichte das FIDE-Rating bis auf 1000 Punkte hinab. Doch diese untere Grenze erwies sich als Problem. Kinder oder Einsteiger, die schnell Fortschritte machten, „zerstörten das System“, wie es Großmeister Jesse Kraai ausdrückt. Regan ergänzt, dass diese Spieler deutlich unterbewertet waren: „Ihr echtes Spielniveau lag 300, 400 oder sogar 600 Punkte über dem Rating.“ Besonders drastisch sei dieser Effekt während der Pandemie gewesen, als sich viele Junioren im Onlineschach stark verbesserten, ihre offiziellen Ratings aber über Jahre hinweg eingefroren blieben.
Die Entscheidung, das Mindest-Rating auf 1400 anzuheben, sollte diesem Effekt entgegenwirken. Regan verweist auf die statistische Grundlage des Systems: Ein Unterschied von 200 Punkten soll eine Gewinnwahrscheinlichkeit von etwa 75 % für den stärkeren Spieler bedeuten. „Doch unterhalb von 2000 war dieses Verhältnis völlig verzerrt“, sagt er. „Das System war dort so auseinandergezogen wie Spaghetti.“
Lineare Leistungsentwicklung
Ein zentraler Punkt in Regans Analyse ist das Prinzip der Linearität: Die Spielstärke sollte sich möglichst gleichmäßig entlang der Rating-Skala entwickeln. „Ich habe festgestellt, dass meine Messgrößen – also etwa, wie oft ein Spieler mit dem ersten Zugvorschlag der Engine übereinstimmt oder wie groß seine Fehler sind – linear mit der Spielstärke korrelieren sollten“, erklärt Regan. Wenn die tatsächlichen Leistungen unter 1800 aber nicht zur Rating-Kurve passen, ist das ein Anzeichen für Verzerrung. Deshalb habe er seine Modelle von einer einfachen linearen Regression auf komplexere Funktionen umgestellt, bis die Korrektur durch die FIDE den „Knick“ bei 2000 Ratingpunkten wieder geglättet habe.
Doch Regan ist nicht restlos zufrieden: „Vielleicht war die Korrektur zu großzügig im Bereich zwischen 1300 und 1600“, meint er. Seine eigenen Messdaten zeigen, dass die Fehlerquote vieler Spieler dort höher liegt, als es zur neuen Linie passt.

Cheating: Was Engines über uns verraten
Ein weiterer großer Themenblock des Gesprächs ist die Betrugserkennung. Regan verwendet dazu ein ausgeklügeltes Modell, das nicht nur misst, wie häufig ein Spieler mit der Engine übereinstimmt, sondern auch, wie „kompliziert“ die jeweilige Stellung ist. Seine Modelle bewerten die Qualität von Zügen nicht absolut, sondern im Kontext: „Ich analysiere, wie sehr sich die Bewertung während der Engine-Suche verändert. Wenn ein Zug bei niedriger Rechentiefe gut aussieht, aber bei tieferer Analyse schlecht ist, fließt das in die Bewertung ein.“
Mit diesem System könne man sehr genau die tatsächliche Spielstärke einer Person ermitteln – unabhängig vom Ergebnis. „Ich nenne das den ‚intrinsic performance rating‘“, sagt Regan. Diese Methode ermögliche es auch, historische Partien zu analysieren. So habe etwa Paul Morphy in einer frühen Version seines Modells nur knapp unter 2400 gelegen, inzwischen sehe er ihn bei etwa 2475.
Der Pandemie-Effekt
Obwohl die FIDE-Korrektur den unteren Bereich des Systems angepasst hat, sieht Regan weiterhin einen „Pandemie-Lag“ bei vielen jungen Spielern, ein kollektives Nachhinken der Ratings hinter der tatsächlichen Spielstärke. Er verweist auf die Weltmeisterschaft der Junioren 2024: „Die Teilnehmer haben im Schnitt 100 Punkte über ihrem offiziellen Rating gespielt“, sagt er. Diese Abweichung sei teilweise natürlich – junge Spieler entwickeln sich schnell –, aber auch ein Überbleibsel der Pandemiezeit, in der viele Ratings über Jahre stagnierten. Regan geht davon aus, dass sich dieser Rückstand langfristig normalisieren wird, warnt aber vor vorschnellen Urteilen über stark spielende Jugendliche mit „zu niedrigem“ Rating.
Wie viele betrügen wirklich?
Regans Zahlen zur Häufigkeit von Betrug überraschen: „Im klassischen Schach liegt die Rate vermutlich bei 1 zu 5000 bis 1 zu 10.000“, sagt er. Deutlich höher sei sie online, dort könne man eher mit 1 zu 100 oder 1 zu 50 rechnen. Wichtig sei dabei, dass seine Tests extrem hohe Beweissicherheit liefern müssen – vergleichbar mit Wahlprognosen in den USA: „Ich arbeite mit einer Zielgenauigkeit von 99,5 Prozent, das entspricht einer Fehlerwahrscheinlichkeit von 1 zu 200.“
Sein System könne zwar nicht exakt sagen, welche Züge geschummelt waren, wohl aber, ob das Gesamtbild statistisch erklärbar sei oder nicht. Im Fall von Igors Rausis, der 2019 mit einem Handy auf der Toilette erwischt wurde, hätten seine Daten eine Spielstärke im Bereich von 2800 Elo angezeigt – deutlich über Rausis’ offiziellen Zahlen.
Technik, Training, Transparenz
Dr. Regan sieht großes Potenzial in seinem Modell – nicht nur zur Betrugserkennung, auch als Trainingswerkzeug. „Ich kann erkennen, ob ein Spieler taktisch oder strategisch schwach ist, und welche Stellungen ihm liegen“, erklärt er. Zwar sei sein Modell ursprünglich nicht für den Massenmarkt gedacht („Ich baue ein Präzisionsinstrument, kein Auto“), doch er würde eine einfachere Version zur Verfügung stellen – etwa für Turnierausrichter oder als öffentliches Werkzeug. Ein Hindernis sei jedoch, dass die FIDE selbst seine Vorschläge bisher nicht öffentlich umgesetzt habe: „Ich habe eine offene Datenstruktur geschaffen, aber niemand nutzt sie.“
Ich verstehe nicht wie ein Schwätzer wie Regan Professor sein kann. Wenn man in dem System einer Gruppe Punkte schenkt, ändert dies gar nichts, denn die Spieler werden gegeneinander mit dem gleichen Erfolg spielen wie bisher und damit werden sich auch die neuen Punkte gleichmäßig auf alle Spieler verteilen. Ich denke so 50 werden bei Magnus Carlsen davon ankommen. Nur wenn ich nun gegen einen mit 1700 spiele, muss ich schauen ob es ein Vielspieler ist, der die Punkte schon wieder abgegeben hat oder ein aufgewerteter 1500er. Durch die Anhebung des Bodens werden in Zukunft viele auf dem Weg zu… Weiterlesen »
Ein interessanter Beitrag, der bei mir einige Fragen aufwirft Dr. Kenneth Regan wird als der Mathematiker und führender Experte für statistische Betrugserkennung im Schach bezeichnet. Gibt es eigentlich auch noch andere Experten? Ich habe keine öffentlich zugänglichen gefunden. so fokussiert sicht die ganze ELO und Cheating Diskussion immer auf die Person und Argumente von Prof Kenneth Regan. Ich habe natürlich keinen Zweifel an seiner generellen fachlichen Expertise, aber einige Argumente und Aussagen von ihm entbehren nicht einer gewissen Unlogik. So zum Beispiel “Regan nennt als Beispiel eine Spielerin, die mit 1845 Elo in Europa auflief, in Wahrheit aber bereits auf 2300-Niveau spielte… Weiterlesen »
“Fun Fact”: Im Laufe des Jahres wird voraussichtlich eine analoge Anpassung der DWZ geben.
Es mag durchaus sein, dass einige bis viele mit der alten Zahl unterbewertet waren – das gab es schon immer, aber vielleicht in letzter Zeit verstärkt. Aber von der Korrektur profitierten alle – unabhängig von Alter, Land und ob es Anzeichen gab, dass sie unterbewertet waren. Auch Spieler, für die es zuvor eher bergab ging oder die zuletzt (recht) inaktiv waren. Das geht wohl nicht anders, sonst bräuchte man komplizierte und willkürliche Regeln. Zum Beispiel bei Altersgrenze: ein 18-jähriger und ein 19-jähriger waren zuvor nominell gleichwertig, und plötzlich ist der 18.jährige besser weil nur seine Zahl korrigiert wird?? Oder nur… Weiterlesen »