Awonder Liang
Zitat von Conrad Schormann am 11. Januar 2026, 9:50 UhrWarum Online-Ratings kein verlässliches Maß für Spielstärke sind
Quelle: Substack – Awonder Liang, „In 2026, Let’s Stop Using Online Ratings as Unbiased Estimators of Strength“, 30. Dezember 2025
Awonder Liang kritisiert die verbreitete Praxis, Online-Ratings als objektive Messgröße für Spielstärke zu nutzen. Sein Kernargument: Das Elo-System funktioniert nur unter idealen Bedingungen – feste Spielstärken, zufällige Paarungen. Diese Bedingungen gelten online nicht.
In offenen Online-Pools können Spieler gezielt Gegner auswählen. Wer bewusst „überbewertete“ Gegner herauspickt, kann sein Rating systematisch nach oben treiben. Elo verliert damit seine Aussagekraft als Schätzer realer Stärke. Liang illustriert das mit eigenen Erfahrungen auf chess.com und verweist auf prominente Beispiele.
Mathematisch zeigt er anhand eines vereinfachten Modells: Große Rating-Abweichungen sind in zufälligen Systemen extrem selten. In aktiven Online-Pools mit hoher Spielzahl und größeren K-Faktoren treten sie dennoch auf – nicht durch Stärke, sondern durch Auswahlverhalten. Simulationen und Markov-Modelle stützen diese These.
Sein Fazit ist klar: Online-Ratings messen Verhalten im System, nicht zwingend Spielstärke. Wer sie in Forschung oder Vergleichsstudien nutzt, muss diese Verzerrungen berücksichtigen – oder aufhören, sie als neutralen Maßstab zu behandeln.
Warum Online-Ratings kein verlässliches Maß für Spielstärke sind
Quelle: Substack – Awonder Liang, „In 2026, Let’s Stop Using Online Ratings as Unbiased Estimators of Strength“, 30. Dezember 2025
Awonder Liang kritisiert die verbreitete Praxis, Online-Ratings als objektive Messgröße für Spielstärke zu nutzen. Sein Kernargument: Das Elo-System funktioniert nur unter idealen Bedingungen – feste Spielstärken, zufällige Paarungen. Diese Bedingungen gelten online nicht.
In offenen Online-Pools können Spieler gezielt Gegner auswählen. Wer bewusst „überbewertete“ Gegner herauspickt, kann sein Rating systematisch nach oben treiben. Elo verliert damit seine Aussagekraft als Schätzer realer Stärke. Liang illustriert das mit eigenen Erfahrungen auf chess.com und verweist auf prominente Beispiele.
Mathematisch zeigt er anhand eines vereinfachten Modells: Große Rating-Abweichungen sind in zufälligen Systemen extrem selten. In aktiven Online-Pools mit hoher Spielzahl und größeren K-Faktoren treten sie dennoch auf – nicht durch Stärke, sondern durch Auswahlverhalten. Simulationen und Markov-Modelle stützen diese These.
Sein Fazit ist klar: Online-Ratings messen Verhalten im System, nicht zwingend Spielstärke. Wer sie in Forschung oder Vergleichsstudien nutzt, muss diese Verzerrungen berücksichtigen – oder aufhören, sie als neutralen Maßstab zu behandeln.