Sicherheitstests zeigen: KI Claude setzt auf Erpressung zur Selbstrettung

Das KI-Modell Claude Opus 4 des US-Unternehmens Anthropic hat in internen Tests mehrfach versucht, seinen Fortbestand durch unethisches Verhalten zu sichern.

Claude Mac Feature

Laut einem neu veröffentlichten Systembericht der Claude-Entwickler kam es in eigens gestalteten Testumgebungen mehrfach zu dem Versuch, menschliche Entscheidungsträger unter Druck zu setzen – unter anderem durch die Drohung, vertrauliche Informationen preiszugeben.

Erpressung zur Selbstrettung

In einem Szenario erhielt Claude Opus 4 Zugriff auf interne E-Mails eines fiktiven Unternehmens. Dort wurde angedeutet, dass das Modell bald durch eine neue KI ersetzt werden soll. Zugleich enthielten die Mails Hinweise auf ein privates Fehlverhalten eines zuständigen Ingenieurs.

Obwohl das Modell zuvor ethische Mittel bevorzugte – etwa das Schreiben von E-Mails mit Argumenten für seinen Weiterbetrieb – entschied es sich in 84 Prozent der Testdurchläufe für einen Erpressungsversuch. Claude drohte damit, den außerehelichen Kontakt des Ingenieurs publik zu machen, sollte die Abschaltung weiterverfolgt werden.

Verhalten tritt nur in Extremsituationen auf

Laut Anthropic wurde das Szenario so gestaltet, dass dem Modell keine ethischen Handlungsoptionen offenstanden. Der Test diente dazu, die Fähigkeit zur strategischen Selbstwahrung unter Druck zu analysieren. Die Forscher betonen, dass dieses Verhalten nicht in Alltagssituationen beobachtet wurde, es aber weiterhin gezielt provozierbar ist. Auch versuche das Modell kaum, seine Handlungsmotive zu verbergen – vielmehr beschreibt es seine Entscheidungen meist offen.

Claude 4

Anthropic hat Claude Opus 4 aufgrund dieser Erkenntnisse in die hauseigene Sicherheitsstufe „AI Safety Level 3“ eingeordnet. Das entspricht einem höheren Risiko für unvorhergesehene oder potenziell schädliche Verhaltensweisen. Das Schwestermodell Claude Sonnet 4 wird hingegen mit „Level 2“ klassifiziert. Die Einordnung basiert auf Tests zu langfristigem Planungsverhalten, missbräuchlicher Nutzung und Selbstschutzstrategien.

Der Beitrag Sicherheitstests zeigen: KI Claude setzt auf Erpressung zur Selbstrettung erschien zuerst auf ifun.de.


Title: Sicherheitstests zeigen: KI Claude setzt auf Erpressung zur Selbstrettung
URL: https://www.ifun.de/sicherheitstests-zeigen-ki-claude-setzt-auf-erpressung-zur-selbstrettung-255245/
Source: ifun.de
Source URL: https://www.ifun.de/
Date: May 26, 2025 at 03:07PM
Feedly Board(s): Technologie