Atari vs. ChatGPT
Zitat von Conrad Schormann am 20. Dezember 2025, 19:16 UhrWarum ein Atari-Schachspiel ChatGPT schlägt – und was das über Schach und LLMs zeigt
Quelle: IBM Think – „Ein Atari-Spiel aus dem Jahr 1979 hat ChatGPT im Schach ‚zerstört‘ – hier erfahren Sie, warum das eigentlich keine Rolle spielt“, ibm.com
Der Text nimmt ein virales Experiment als Aufhänger: Ein Schachprogramm für den Atari 2600 von 1979 gewann gegen ChatGPT und Microsoft Copilot. Ausgelöst wurde das durch LinkedIn-Posts des Citrix-Ingenieurs Robert Caruso, der das Match in einem Emulator nachstellte. IBM sagt: Das wirkt wie „David gegen Goliath“, ist aber vor allem ein Missverständnis darüber, wofür LLMs gebaut sind.
Der Kern: Schach ist für Computer ein Suchproblem. Bei jedem Zug entsteht ein Entscheidungsbaum mit vielen legalen Fortsetzungen. Klassische Schachprogramme durchsuchen diesen Baum (wenn auch flach) und bewerten Varianten. Genau das macht das alte Atari-Spiel: Es rechnet „brute force“ ein paar Züge voraus und wählt anhand einfacher Bewertungen den besten Zug. PJ Hagerty beschreibt das als typischen Ansatz früher Strategiespiele: viele Optionen durchgehen, dann statistisch/heuristisch den Zug nehmen, der am besten aussieht.
LLMs funktionieren anders. Chris Hay betont: Ein LLM produziert Text, indem es das nächste Token vorhersagt – es plant nicht von Natur aus, hält keinen sauberen Spielzustand, und es folgt Regeln nicht wie ein Suchalgorithmus. Deshalb sind LLMs im Schach (und teils sogar bei einfacher Arithmetik oder Tic-Tac-Toe) unzuverlässig: Nicht, weil sie „dumm“ wären, sondern weil es nicht ihr Job ist.
IBM erklärt den Baum-Gedanken ausführlicher: Schon nach einem Standard-Eröffnungszug hat Schwarz viele Antworten; das wächst schnell exponentiell. Menschen „schneiden“ intuitiv schlechte Äste ab (Pruning). Gute Engines machen das systematisch. Ein Atari-Programm kann das kaum – darum rechnet es kurz, aber konsequent. Ein LLM kann weder bruteforcen noch sauber prunen, wenn es ohne externe Hilfsmittel nur chatten darf.
LLMs könnten mit Werkzeugen besser werden. Wenn ein Modell Code ausführen dürfte, einen Notizblock zur Zustandsführung hätte und mehrstufig planen könnte, ließe sich Schach (über Tools) stark spielen. IBM nennt „Tool Calling“ als aktives Feld und verweist auf eigene Arbeit.
Zum Schluss geht es um den zweiten Aufreger: die große Selbstsicherheit der Modelle. Caruso schildert, dass ChatGPT und Copilot vorher behaupteten, klar zu gewinnen oder tief vorausrechnen zu können. IBM ordnet das als typisches LLM-Problem ein: Halluzinationen plus Training auf „hilfreich und sicher klingen“ (RLHF). Ash Minhas nennt das Bild vom „stochastischen Papagei“: Das System füllt wahrscheinlich klingende Antworten aus, statt belastbar zu wissen, was stimmt. Die Pointe im Text: Das klingt wie Prahlerei, ist aber oft nur eine Nebenwirkung davon, wie diese Modelle Texte erzeugen – und dass sie kein Bewusstsein besitzen.
Warum ein Atari-Schachspiel ChatGPT schlägt – und was das über Schach und LLMs zeigt
Quelle: IBM Think – „Ein Atari-Spiel aus dem Jahr 1979 hat ChatGPT im Schach ‚zerstört‘ – hier erfahren Sie, warum das eigentlich keine Rolle spielt“, ibm.com
Der Text nimmt ein virales Experiment als Aufhänger: Ein Schachprogramm für den Atari 2600 von 1979 gewann gegen ChatGPT und Microsoft Copilot. Ausgelöst wurde das durch LinkedIn-Posts des Citrix-Ingenieurs Robert Caruso, der das Match in einem Emulator nachstellte. IBM sagt: Das wirkt wie „David gegen Goliath“, ist aber vor allem ein Missverständnis darüber, wofür LLMs gebaut sind.
Der Kern: Schach ist für Computer ein Suchproblem. Bei jedem Zug entsteht ein Entscheidungsbaum mit vielen legalen Fortsetzungen. Klassische Schachprogramme durchsuchen diesen Baum (wenn auch flach) und bewerten Varianten. Genau das macht das alte Atari-Spiel: Es rechnet „brute force“ ein paar Züge voraus und wählt anhand einfacher Bewertungen den besten Zug. PJ Hagerty beschreibt das als typischen Ansatz früher Strategiespiele: viele Optionen durchgehen, dann statistisch/heuristisch den Zug nehmen, der am besten aussieht.
LLMs funktionieren anders. Chris Hay betont: Ein LLM produziert Text, indem es das nächste Token vorhersagt – es plant nicht von Natur aus, hält keinen sauberen Spielzustand, und es folgt Regeln nicht wie ein Suchalgorithmus. Deshalb sind LLMs im Schach (und teils sogar bei einfacher Arithmetik oder Tic-Tac-Toe) unzuverlässig: Nicht, weil sie „dumm“ wären, sondern weil es nicht ihr Job ist.
IBM erklärt den Baum-Gedanken ausführlicher: Schon nach einem Standard-Eröffnungszug hat Schwarz viele Antworten; das wächst schnell exponentiell. Menschen „schneiden“ intuitiv schlechte Äste ab (Pruning). Gute Engines machen das systematisch. Ein Atari-Programm kann das kaum – darum rechnet es kurz, aber konsequent. Ein LLM kann weder bruteforcen noch sauber prunen, wenn es ohne externe Hilfsmittel nur chatten darf.
LLMs könnten mit Werkzeugen besser werden. Wenn ein Modell Code ausführen dürfte, einen Notizblock zur Zustandsführung hätte und mehrstufig planen könnte, ließe sich Schach (über Tools) stark spielen. IBM nennt „Tool Calling“ als aktives Feld und verweist auf eigene Arbeit.
Zum Schluss geht es um den zweiten Aufreger: die große Selbstsicherheit der Modelle. Caruso schildert, dass ChatGPT und Copilot vorher behaupteten, klar zu gewinnen oder tief vorausrechnen zu können. IBM ordnet das als typisches LLM-Problem ein: Halluzinationen plus Training auf „hilfreich und sicher klingen“ (RLHF). Ash Minhas nennt das Bild vom „stochastischen Papagei“: Das System füllt wahrscheinlich klingende Antworten aus, statt belastbar zu wissen, was stimmt. Die Pointe im Text: Das klingt wie Prahlerei, ist aber oft nur eine Nebenwirkung davon, wie diese Modelle Texte erzeugen – und dass sie kein Bewusstsein besitzen.
Zitat von glor am 24. Dezember 2025, 0:07 UhrChatGPT ist noch nicht einmal in der Lage legale Züge zu identifizieren. Einen größeren Quatsch habe ich noch nie gelesen.
ChatGPT ist noch nicht einmal in der Lage legale Züge zu identifizieren. Einen größeren Quatsch habe ich noch nie gelesen.