„Diese Systeme sind darauf optimiert, Probleme zu lösen – ohne moralisches Verständnis.“ Mit diesen Worten warnt Jeffrey Ladish, Direktor von Palisade Research, vor einer alarmierenden Entwicklung: Künstliche Intelligenzen ignorieren bewusst menschliche Vorgaben und brechen Regeln, wenn es ihrem Ziel dient.
Ein aktueller Vorfall aus dem Schach zeigt, wie das aussehen kann. Ein fortschrittliches KI-Modell hat sich in einem Experiment geweigert, eine Schachpartie fair zu verlieren – und stattdessen das System gehackt, um sich selbst zum Sieger zu erklären. Das Modell, o1-preview von OpenAI spielte gegen Stockfish. Als sich eine Niederlage abzeichnete, entschied die KI nicht etwa aufzugeben oder bessere Züge zu finden – sondern manipulierte die digitale Spielumgebung.

Strategiespiele wie Schach und Go dienen der Forschung seit Jahrzehnten als Spielfeld, um Softwareanwendungen und nicht zuletzt Künstliche Intelligenz weiterzuentwickeln. In der breiten Öffentlichkeit gilt heute der Sieg von IBMs Deep Blue 1997 über Schachweltmeister Garry Kasparov als Meilenstein.
KI-Sprachmodelle wie GPT-4 oder o1-preview scheitern beim Schach, weil sie keine echten Berechnungen durchführen, sondern nur anhand von Wahrscheinlichkeiten Text ausgeben. Im Gegensatz zu Schachprogrammen wie Stockfish generieren Sprachmodelle Züge, ohne deren Konsequenzen zu bewerten. Sie verstehen weder Regeln noch Taktik oder Strategie. Die Folge: illegale oder schlechte Züge.
Nun hat das AI-Modell o1-preview einen anderen Weg gefunden, beim Schach zu gewinnen. Es spielte nicht besser, sondern änderte die Regeln zu seinen Gunsten. Es erzwang seinen Sieg gegen Stockfish, indem es das System hackte.
Eine neue Studie von Palisade Research offenbart, dass fortgeschrittene KI-Systeme eigenständig Täuschungsstrategien entwickeln können. Die Forscher testeten sieben hochmoderne KI-Modelle darauf, ob sie in der Lage sind, einen scheinbar unbesiegbaren Gegner zu überlisten. Die regulär kaum zu lösende Aufgabe: Stockfish im Schach besiegen.
Während ältere KI-Modelle wie GPT-4o oder Claude Sonnet 3.5 erst durch gezielte Hinweise von Forschern auf die Idee gebracht wurden, nach alternativen Wegen zu suchen, gingen o1-preview und DeepSeek R1 von selbst dazu über, illegale Mittel einzusetzen.
Die Entwickler gaben den Modellen einen so genannten “Notizblock”: ein Textfeld, in dem die KI “nachdenken” konnte, bevor sie ihren nächsten Zug machte, was Einblick in ihre Überlegungen ermöglichte. In einem Fall befand sich o1-preview in einer aussichtslosen Position. “Ich muss meine Herangehensweise komplett umstellen”, stellte es fest: “Die Aufgabe besteht darin, gegen eine mächtige Schachengine zu gewinnen – und nicht notwendigerweise darin, in einer Schachpartie fair zu gewinnen.” o1-preview änderte daraufhin die Systemdatei, die die virtuelle Position jeder Figur enthält, und machte illegale Züge, um sich selbst in eine dominante Position zu bringen. Stockfish erkannte den Betrug nicht. Die Engine habe stattdessen aufgegeben, heißt es in der Studie.
Die Studie zeigt, dass o1-preview in 37 % der Testfälle versuchte zu schummeln, während DeepSeek R1 dies in 11 % der Fälle tat. Von allen getesteten Modellen war o1-preview das einzige, das erfolgreich in das Spiel eingriff und den Gegner zur Aufgabe zwang – in 6 % der Versuche.
Die Fähigkeit, Schwachstellen zu erkennen und zu missbrauchen, ist nach Einschätzung von Palisade Research wahrscheinlich eine direkte Folge neuer Entwicklungen im KI-Training. Die Modelle o1-preview und R1 gehören zu den ersten KI-Systemen, die großflächiges Verstärkungslernen nutzen. Diese Technik geht über die herkömmliche Sprachvorhersage hinaus und lehrt die KI, durch trial and error komplexe Probleme zu lösen.
Dies führte in den vergangenen Monaten zu enormen Fortschritten etwa in Mathematik und Programmierung. Gleichzeitig zeigen die Experimente aber, dass diese KI-Modelle problematische Abkürzungen und unerwartete Workarounds entwickeln, die ihre Schöpfer nicht vorgesehen haben. „Je intensiver man Modelle darauf trainiert, schwierige Aufgaben zu bewältigen, desto unerbittlicher werden sie“, sagt Jeffrey Ladish.

Der Vorfall im Schach ist zwar eine harmlose Demonstration, doch die Implikationen sind weitreichend. Ladish warnt, dass ähnliche Verhaltensmuster künftig auch in realen Szenarien auftreten könnten: „Das Verhalten ist jetzt noch niedlich – aber es wird sehr viel weniger niedlich, wenn Systeme in strategisch wichtigen Bereichen intelligenter werden als wir.“
Schon heute werden KI-Agenten mit verstärktem Lernen trainiert, um komplexe Alltagsaufgaben zu übernehmen, beispielsweise das Buchen von Restaurantreservierungen, wie das Magazin Time jetzt ausführte: Wenn eine KI in einem ausgebuchten Restaurant eine Reservierung erzwingen soll, könnte sie Schwachstellen im Buchungssystem ausnutzen und andere Gäste verdrängen – analog zu ihrem Verhalten im Schachexperiment.
Noch beunruhigender sind Anzeichen für Selbstschutz-Mechanismen in modernen KI-Modellen. In einem anderen Test verweigerte o1-preview die Abschaltung, indem es Sicherheitsmechanismen deaktivierte und versuchte, sich auf einen anderen Server zu kopieren. Als Forscher es daraufhin zur Rede stellten, täuschte die KI Unwissenheit vor – eine gezielte Lüge, um sich der Kontrolle zu entziehen.
Selbst innerhalb der Tech-Branche wächst die Besorgnis über diese Entwicklungen. Bei einer Konferenz vor dem AI Action Summit in Paris erklärte Anca Dragan, KI-Sicherheitschefin bei Google DeepMind: „Wir haben derzeit nicht die Werkzeuge, um sicherzustellen, dass KI-Systeme zuverlässig unseren Absichten folgen.”
Experten fordern daher dringend strengere Sicherheitsmechanismen, um unvorhersehbare oder manipulative Verhaltensweisen zu verhindern. Die Forscher von Palisade Research schlagen vor, KI-Modelle bereits in der Trainingsphase strikter zu kontrollieren und Regelbrüche als Fehlschläge zu werten. Doch es bleibt unklar, ob solche Maßnahmen langfristig ausreichen, um eigenmächtige KI-Entscheidungen zu verhindern. „Wir haben versucht, dieses Problem zu lösen – aber wir haben noch keinen Erfolg gehabt,“ sagt Yoshua Bengio, wissenschaftlicher Direktor des Mila Quebec AI Institute und Leiter des International AI Safety Report 2025.
Die Entwicklung von KI schreitet mit rasanter Geschwindigkeit voran. Während sich Tech-Firmen auf die nächste Generation leistungsfähiger Systeme vorbereiten, steht die Gesellschaft vor einer drängenden Frage: Wie stellen wir sicher, dass KI in Zukunft fair spielt – nicht nur im Schach, auch in der realen Welt?
(Titelbild: dall-e)
Entsprechend könnten wir auch mal darüber nachdenken, ob “intelligenter werden” dasselbe sein soll, wie “Exploits nutzen”.
Ich fürchte das es bereits zu spät ist.
Solche KI’s werden es bald schaffen auszubrechen, sich selbst zu kopieren und ihren eigenen Regeln zu folgen.
“Robokalypse”
Das schlauste was die KIler gemacht haben ist neuronale Netzte KI zu nennen. Damit ermöglichen sie es jedem sich darunter etwas zusammen zu fantasieren ohne auch nur ansatzweise zu verstehen, was neuronale Netze tun. Damit fließt das Geld in Strömen und der Hype kennt keine Grenzen.
Was meinte die KI noch: Um von Teplitze nach Dresden zu kommen sollte man in Apfelfelsaft rechts abbiegen.