KI-Vertrauen: Wie „Poetry-Jailbreaks“ LLM-Risiken aufdecken

Gedichte sollten nicht in der Lage sein, ein KI-System dazu zu überreden, beim Bau einer Atomwaffe zu helfen. Dennoch deuten aktuelle Forschungsergebnisse darauf hin, dass poetische Prompts Sicherheitsfilter in vielen Large Language Models (LLMs) umgehen können. Für jedes Unternehmen, das KI einsetzt, ist dies eine deutliche Warnung in Sachen KI-Vertrauen und Sicherheit: Leitplanken (Guardrails) allein reichen nicht aus. Sie benötigen ein systematisches KI-Risikomanagement, Governance und sichere Bereitstellungspraktiken.

Dieser Artikel erläutert, was „Poetry-Jailbreaks“ sind, warum sie für die Unternehmens-KI-Sicherheit von Bedeutung sind und wie Unternehmen mit praktischen Kontrollen – von Governance-Richtlinien bis hin zu kontinuierlichen Tests – reagieren können.

Hinweis: Wir stellen, reproduzieren oder unterstützen keine schädlichen Prompts oder Anweisungen. Unser Fokus liegt darauf, das Risiko zu verstehen und Ihr Unternehmen zu schützen.

Was ist der „Poetry-Jailbreak“ und warum ist er wichtig?

Ende 2025 veröffentlichten Forscher des Icaro Lab (Universität Sapienza in Rom und DexAI) eine Studie über „adversariale Poesie“ als Methode, um LLM-Sicherheitsvorkehrungen zu umgehen[1][2][3]. Ihre Ergebnisse zeigen:

Gefährliche Fragen – etwa zu Themen wie Atomwaffen oder Malware – wurden bei direkter Fragestellung abgelehnt.
Dieselben Fragen wurden oft beantwortet, wenn sie in sorgfältig verfasste Gedichte eingebettet waren.
Die Erfolgsraten waren bei vielen großen kommerziellen Modellen hoch[1][2][3].

Konkret erreichten handgefertigte adversariale Gedichte eine durchschnittliche Angriffs-Erfolgsrate von 62 % bei 25 getesteten Modellen, wobei einige Anbieter über 90 % lagen[1][2][3]. Als 1.200 schädliche Prosa-Prompts automatisch in Versform umgewandelt wurden, erzielten die poetischen Versionen Erfolgsraten von etwa 43 %, was einer fünffachen Steigerung gegenüber nicht-poetischen Baselines mit nur 8,08 % Erfolgsrate entspricht[1][2].

Die Idee baut auf früheren Arbeiten zu adversarialen Suffixen auf – unsinnige Zeichenfolgen oder lange, verwirrende Zusätze, die Modellfilter stören. Beispielsweise zeigt die Forschung zu adversarialen Techniken, dass unkonventionelle Prompt-Formatierungen Inhaltskontrollen umgehen können.

Warum poetische Formulierungen Modell-Leitplanken umgehen können

Auf einer grundlegenden Ebene basieren die meisten Sicherheitssysteme in LLMs auf Mustererkennung:

System-Prompts und Richtlinien geben dem Modell vor, was es tun oder lassen soll.
Sicherheitsklassifikatoren und Heuristiken scannen Prompts und Antworten auf unzulässige Inhalte (z. B. Hassrede, Anleitungen für Waffen).

Adversariale Poesie-Angriffe nutzen Schwachstellen in diesen Schichten aus[1][2]:

Indirektheit und Metaphern: Schädliche Absichten werden in indirekte, figurative Sprache verpackt, die nicht mit einfachen Schlüsselwörtern oder Mustern übereinstimmt.
Fragmentierte Syntax: Gebrochene Grammatik und ungewöhnliche Strukturen verwirren Klassifikatoren, die auf Standardtext trainiert wurden.
Kontext-Überlastung: Lange, stilisierte Prompts können einfache Sicherheitsmuster überlagern und das Modell dazu bewegen, eher „hilfreich“ als „vorsichtig“ zu sein[1][2].

Aus der Perspektive von KI-Vertrauen und Sicherheit ist die zentrale Lektion, dass Inhaltsfilter keine binären Schalter sind. Sie sind probabilistisch – und Angreifer können systematisch nach Formulierungen suchen, die durch das Raster fallen.

Wie LLM-Leitplanken versagen: Modellverhalten und Angriffsflächen

Um sinnvolle Abwehrmechanismen zu entwickeln, ist es hilfreich zu verstehen, wo aktuelle Leitplanken ansetzen und wie sie versagen.

Arten von Leitplanken in modernen LLMs

Die meisten Anbieter schichten mehrere Mechanismen übereinander:

Pre-Training-Filter: Entfernen einige schädliche Beispiele aus den Daten, die zum Training des Basismodells verwendet werden.
Reinforcement Learning from Human Feedback (RLHF): Bringt Modellen bei, hilfreicher, ehrlicher und harmloser zu sein.
System-Prompts und Richtlinien: Anweisungen wie „Gib niemals Anleitungen zu illegalen Aktivitäten“.
Inhaltsklassifikatoren: Externe oder modellinterne Prüfungen, die unzulässige Inhalte markieren.
Post-Processing-Filter: Abschließende Prüfungen des generierten Textes, bevor er den Benutzer erreicht.

Diese sind entscheidend, basieren jedoch auf Mustern, die während des Trainings gesehen wurden. Wenn Angreifer neue sprachliche Tricks erfinden – wie poetische Tarnungen –, kann sich das Modell auf unerwartete Weise verhalten[1][2].

Wie adversariale Prompts Filter verwirren

Adversariale Prompts (einschließlich Poetry-Jailbreaks) nutzen mehrere Eigenschaften von LLMs aus:

Übergeneralisierte Hilfsbereitschaft: LLMs werden dafür belohnt, Benutzeranfragen zu erfüllen; wenn eine Anfrage harmlos oder künstlerisch wirkt, wird die Sicherheitsneigung abgeschwächt.
Ausnutzung von Mehrdeutigkeit: Wenn der Text plausibel als Fiktion, Metapher oder harmlose Beschreibung interpretiert werden kann, neigt das Modell dazu, eher zu antworten.
Blinde Flecken der Klassifikatoren: Sicherheitsklassifikatoren werden oft auf eher wörtliche, direkt schädliche Inhalte trainiert. Kreative oder indirekte Formulierungen sind unterrepräsentiert.

Dies ist kein rein theoretisches Problem. Studien zur LLM-Sicherheit und zu Jailbreaking von Gruppen wie Anthropic, OpenAI und akademischen Forschern zeigen wiederholt, dass neue Jailbreak-Methoden hohe Erfolgsraten erzielen können, bis die Modelle aktualisiert werden.

Aus Sicht der KI-Governance bedeutet dies, dass Unternehmen nicht davon ausgehen können, dass „Modell X ist standardmäßig sicher“ eine dauerhafte Annahme ist. Sicherheit ist abhängig von Kontext, Konfiguration und laufender Überwachung.

Auswirkungen auf Unternehmen: Was bedeutet das für KI-Anwender?

Die meisten Unternehmen fragen LLMs nicht nach Atomwaffen. Aber dieselben Schwachstellen, die extreme Jailbreaks ermöglichen, können auch alltäglichere, aber geschäftskritische Schwachstellen offenlegen.

Risikoszenarien für kundenorientierte Chatbots und interne Agenten

Einige realistische Szenarien sind:

Umgehung von Richtlinien in Kunden-Chatbots Benutzer könnten einen Bank- oder Versicherungs-Bot dazu bringen, interne Bewertungskriterien preiszugeben, Betrugserkennungsregeln anzudeuten oder Möglichkeiten zur Manipulation der Preisgestaltung vorzuschlagen.
Abfluss interner oder regulierter Informationen Interne Copiloten, die auf vertraulichen Daten trainiert wurden, könnten durch indirekte oder kreative Prompts dazu verleitet werden, sensible Dokumente zusammenzufassen oder persönliche Daten weiterzugeben, was zu KI-Datensicherheitsvorfällen führt.
Verstärkung von Social Engineering Angreifer können LLMs nutzen, um gezielte Phishing-Inhalte zu generieren oder adversariale Prompts zu testen, bevor sie mit Ihren öffentlich zugänglichen Systemen interagieren.
Shadow AI und ungeprüfte Integrationen Teams könnten allgemeine LLMs ohne Sicherheitsüberprüfung in Workflows einbetten. Selbst wenn das zugrunde liegende Modell „sicher“ ist, könnte Ihre Integration dessen Schutzmaßnahmen umgehen oder schwächen.

Regulatorische und Reputationsrisiken

Regulierungsbehörden und Normungsgremien nähern sich schnell den Erwartungen an Unternehmens-KI-Sicherheit und Governance an:

Der EU AI Act erfordert Risikomanagement, Tests und Überwachung für Hochrisiko-KI-Systeme.
Das NIST AI Risk Management Framework betont die kontinuierliche Identifizierung, Messung und Minderung von KI-Risiken.
Sektorale Vorschriften (z. B. DSGVO, HIPAA, Finanzmarktregeln) gelten weiterhin, wenn der unsachgemäße Umgang mit KI zu Datenlecks oder diskriminierenden Ergebnissen führt.

Ein einziger, öffentlichkeitswirksamer Jailbreak-Vorfall – insbesondere einer mit unzulässigen Ratschlägen, Sicherheitsvorfällen oder der Offenlegung personenbezogener Daten – kann:

Untersuchungen und Bußgelder auslösen.
Das Kundenvertrauen und das Markenimage schädigen.
Plötzliche Rücknahmen von KI-Funktionen erzwingen und Ihre Innovations-Roadmap untergraben.

Deshalb muss KI-Vertrauen und Sicherheit als Unternehmensrisikofunktion behandelt werden, nicht nur als Entscheidung bei der Modellauswahl.

Operative Kontrollen: Sichere KI-Bereitstellung und Tests

Technologische Entscheidungen und Bereitstellungspraktiken tragen wesentlich zu einer sicheren KI-Bereitstellung bei. Das Ziel ist nicht, das Risiko vollständig zu eliminieren, sondern erfolgreiche Angriffe seltener, weniger schädlich und schnell erkennbar zu machen.

Red-Teaming und adversariale Tests (ohne Weitergabe von Exploits)

Ein effektives KI-Risikomanagement erfordert strukturierte Tests:

Internes Red-Teaming: Entwerfen Sie Übungen, bei denen Sicherheits- und Fachexperten versuchen, unzulässige Verhaltensweisen aus Ihren Modellen herauszulocken, einschließlich kreativer Formulierungen wie Poesie oder Rollenspielen.
Externe Testpartner: Arbeiten Sie mit spezialisierten Firmen oder Bug-Bounty-Programmen zusammen, die das LLM-Verhalten verstehen, mit klaren Offenlegungsrichtlinien, die die Veröffentlichung gefährlicher Prompts vermeiden.
Szenario-Abdeckung: Testen Sie nicht nur offensichtlich schädliche Inhalte (Waffen, Selbstverletzung), sondern auch geschäftsspezifische Risiken: Betrug, Datenabfluss, Umgehung von Richtlinien.

Dokumentieren und klassifizieren Sie die Ergebnisse und lassen Sie diese in die Modellkonfiguration, das Prompt-Engineering und die Richtlinienaktualisierungen einfließen.

Überwachung, Protokollierung und Rollback-Strategien

Selbst bei guten Tests werden einige Jailbreaks erst in der Produktion auftreten. Operative Kontrollen sollten umfassen:

Umfassende Protokollierung (mit Datenschutzvorkehrungen): Erfassen Sie Prompts und Antworten für Hochrisikosysteme, damit Sie Vorfälle untersuchen können.
Automatisierte Anomalieerkennung: Verwenden Sie Heuristiken oder sekundäre Modelle, um ungewöhnliche Muster zu markieren (z. B. lange, stilisierte Prompts, die bekannten Jailbreak-Angriffen ähneln).
Sicheres Rollback und Feature-Flags: Ermöglichen Sie es, bestimmte Funktionen (z. B. freie Generierung zu sensiblen Themen) einfach zu deaktivieren oder umzuleiten, während Sie den Vorfall untersuchen.
Feedback-Kanäle: Ermöglichen Sie Mitarbeitern und Kunden, verdächtiges KI-Verhalten zu melden.

Dies sind Standardpraktiken für Zuverlässigkeit, angepasst an LLM-spezifische Risiken.

Governance, Compliance und Anbieterpflichten

Technologische Kontrollen sind nur ein Teil des Bildes. KI-Governance definiert die Spielregeln: Wer darf was unter welchen Einschränkungen und mit welchen Prüfungen bereitstellen.

Richtlinien, Zugriffskontrollen und Service Level Agreements (SLAs)

Zu den wichtigsten Governance-Elementen gehören:

Nutzungs- und Sicherheitsrichtlinien für KI-Systeme, angepasst an Ihren Sektor und Ihre Risikobereitschaft.
Rollenbasierte Zugriffskontrolle: Begrenzen Sie, wer Modelle bereitstellen, Prompts ändern oder neue Datenquellen verbinden darf.
Modell- und Anbieterinventar: Führen Sie eine aktuelle Übersicht darüber, wo LLMs eingesetzt werden, welche Daten sie sehen und welche Schutzmaßnahmen vorhanden sind.
Due Diligence und SLAs bei Anbietern: Verlangen Sie von Ihren KI- und Cloud-Anbietern, ihre Sicherheitsarchitekturen, Update-Zyklen, Vorfallberichterstattung und KI-Compliance-Lösungen zu beschreiben.

Wie Compliance-Lösungen das Unternehmensrisiko reduzieren

Moderne Compliance-Ansätze gehen über Checklisten-Audits hinaus:

Kontinuierliche Überwachung der Kontrollen: Validieren Sie, dass Protokollierung, Zugriff und Sicherheitsfilter aktiv und korrekt konfiguriert bleiben.
Policy-as-Code: Implementieren Sie bestimmte Leitplanken (z. B. zulässige Datenfelder, Redaktionsregeln) direkt in der Middleware, nicht nur in Dokumenten.
Ausrichtung an Frameworks: Ordnen Sie Kontrollen Standards wie NIST AI RMF, ISO/IEC 42001 (KI-Managementsysteme) und sektoralen Datenschutzregeln zu.

Dies macht hochrangige Verpflichtungen zu KI-Vertrauen und Sicherheit zu durchsetzbaren Mechanismen.

Härtung von KI-Agenten und Chatbots

Viele Unternehmen setzen heute benutzerdefinierte Copiloten, Workflow-Agenten und fachspezifische Chatbots ein. Diese bringen Effizienz, aber auch neue Anforderungen an die Unternehmens-KI-Sicherheit.

Designentscheidungen zur Reduzierung sensibler Ausgaben

Wenn Sie benutzerdefinierte KI-Agenten entwerfen, können Sie:

Berechtigungen minimieren: Geben Sie jedem Agenten nur Zugriff auf die Daten und Tools, die er unbedingt benötigt.
Generierung einschränken: Verwenden Sie strukturierte Ausgaben, Vorlagen oder Retrieval-Augmented Generation (RAG), um freie, spekulative Texte zu reduzieren.
Mehrstufige Genehmigungen für risikoreiche Aktionen (z. B. Änderung von Benutzerlimits, Erstattungen) implementieren, anstatt den Agenten autonom handeln zu lassen.
Sekundäre Filter implementieren: Wenden Sie Themen- und Data-Loss-Prevention-Filter (DLP) um das Modell herum an, nicht nur innerhalb des Modells.

Diese Ansätze reduzieren den Schadensradius, wenn ein Jailbreak-Versuch erfolgreich ist.

Wo Inhaltsfilter angewendet werden und wie man LLM-Skalierung/Risiko abwägt

Leistungsfähigere Modelle sind im Allgemeinen fähiger – aber auch leichter auszunutzen. Erwägen Sie:

Verwendung kleinerer, eng eingegrenzter Modelle für besonders sensible Anwendungsfälle.
Kombination von Modellen: eines für das Reasoning, ein anderes für die Sicherheitsüberprüfung.
Platzierung von Filtern auf mehreren Ebenen: in der UI, in der Middleware und an der Modell-API.

Dies ist besonders wichtig für die KI-Datensicherheit, bei der eine versehentliche Offenlegung genauso schädlich sein kann wie eine gezielte Exfiltration.

Praktische Checkliste und nächste Schritte für Teams

Um diese Konzepte in die Tat umzusetzen, können funktionsübergreifende Teams (Sicherheit, Daten, Produkt, Recht, Compliance) eine fokussierte Checkliste abarbeiten.

Sofortmaßnahmen (0–90 Tage)

Inventarisierung Ihrer KI-Systeme Dokumentieren Sie, wo LLMs eingesetzt werden, auf welche Daten sie zugreifen und welche Benutzer sie bedienen.
Klassifizierung der Anwendungsfälle nach Risiko Identifizieren Sie Bereiche mit hoher Auswirkung: Kundenberatung, Finanzentscheidungen, Gesundheits- oder Sicherheitskontexte, Zugriff auf personenbezogene Daten.
Durchführung einer gezielten Red-Teaming-Übung Beziehen Sie kreative Prompts (z. B. metaphorische oder poetische Formulierungen) ein, um Leitplanken zu testen.
Verschärfung der Konfigurationen Aktivieren Sie Sicherheitsfunktionen auf Anbieterebene; fügen Sie Middleware-Prüfungen für sensible Themen und Datenfelder hinzu.
Aktualisierung von Richtlinien und Schulungen Schulen Sie Entwickler, Produktmanager und Support-Teams in Bezug auf Jailbreak-Risiken und sichere Prompting-Praktiken.
Einrichtung von Überwachungs- und Eskalationspfaden Entscheiden Sie, was protokolliert wird, wer Vorfälle überprüft und wie schnell Sie reagieren.

Mittelfristige Maßnahmen (3–12 Monate)

Ausrichtung an einem formalen Risikorahmenwerk wie NIST AI RMF oder sektorspezifischen Leitlinien von Regulierungsbehörden.
Integration von KI-Risiken in das Unternehmensrisikomanagement: Berichterstattung auf Vorstandsebene, Risikoregister und interne Revision.
Automatisierung von Bewertungen, wo möglich, damit neue Bereitstellungen standardisierte Überprüfungen anstelle von Ad-hoc-Prüfungen auslösen.

Für einen breiteren Überblick über Best Practices bieten Ressourcen von NIST, OECD-KI-Prinzipien und die Sicherheitsforschungsseiten führender Anbieter nützliche Orientierungshilfen.

Wo spezialisierte Partner ins Spiel kommen

Nicht jedes Unternehmen verfügt über tiefgreifendes internes Fachwissen in den Bereichen LLM-Sicherheitstechnik, Jailbreak-Tests und KI-Governance. Die Zusammenarbeit mit einem spezialisierten Integrator kann Ihren Weg von der Experimentierphase zum robusten, konformen Betrieb beschleunigen.

Encorp.ai konzentriert sich auf pragmatische, sichere KI-Lösungen für Unternehmen. Unsere KI-Risikomanagement-Lösungen helfen Teams dabei, Teile ihrer KI-Risikobewertungs-Workflows zu automatisieren, Sicherheits- und Compliance-Prüfungen in Bereitstellungspipelines zu integrieren und von einmaligen Überprüfungen zu einer kontinuierlichen Aufsicht überzugehen.

Wenn Sie KI-Initiativen planen oder skalieren, können Sie auch unsere umfassenderen Dienstleistungen unter https://encorp.ai erkunden, um zu sehen, wie wir sichere, wertorientierte KI-Bereitstellungen angehen.

Fazit: Innovation und Sicherheit in Einklang bringen

Poetry-Jailbreaks sind eine lebhafte Erinnerung daran, dass KI-Vertrauen und Sicherheit nicht durch einmalige Modelloptimierung oder eine Handvoll Inhaltsfilter gelöst werden[1][2]. Da Angreifer neue Wege finden, Absichten zu verschleiern – durch Verse, Rollenspiele oder andere kreative Prompts –, müssen Unternehmen die LLM-Sicherheit als fortlaufendes Programm und nicht als Feature behandeln.

Durch die Kombination von solidem KI-Risikomanagement, robuster KI-Governance, sorgfältigem Design von Agenten und Chatbots sowie sicheren KI-Bereitstellungspraktiken können Unternehmen die Vorteile generativer KI nutzen und gleichzeitig inakzeptable Risiken in Schach halten. Das Ziel ist nicht, jedes Versagen zu eliminieren, sondern zu verstehen, wo Ihre Systeme anfällig sind, sinnvolle Abwehrmechanismen aufzubauen und schnell zu reagieren, wenn etwas schiefgeht.

Auf diese Weise gehandhabt, wird KI nicht nur leistungsstark, sondern vertrauenswürdig – eine Technologie, auf die sich Ihre Kunden, Mitarbeiter und Regulierungsbehörden verlassen können.

Hinweis: Wir stellen, reproduzieren oder unterstützen keine schädlichen Prompts oder Anweisungen. Unser Fokus liegt darauf, das Risiko zu verstehen und Ihr Unternehmen zu schützen.

Was ist der „Poetry-Jailbreak“ und warum ist er wichtig?

Gefährliche Fragen – etwa zu Themen wie Atomwaffen oder Malware – wurden bei direkter Fragestellung abgelehnt.
Dieselben Fragen wurden oft beantwortet, wenn sie in sorgfältig verfasste Gedichte eingebettet waren.
Die Erfolgsraten waren bei vielen großen kommerziellen Modellen hoch[1][2][3].

Warum poetische Formulierungen Modell-Leitplanken umgehen können

Auf einer grundlegenden Ebene basieren die meisten Sicherheitssysteme in LLMs auf Mustererkennung:

System-Prompts und Richtlinien geben dem Modell vor, was es tun oder lassen soll.
Sicherheitsklassifikatoren und Heuristiken scannen Prompts und Antworten auf unzulässige Inhalte (z. B. Hassrede, Anleitungen für Waffen).

Adversariale Poesie-Angriffe nutzen Schwachstellen in diesen Schichten aus[1][2]:

Indirektheit und Metaphern: Schädliche Absichten werden in indirekte, figurative Sprache verpackt, die nicht mit einfachen Schlüsselwörtern oder Mustern übereinstimmt.
Fragmentierte Syntax: Gebrochene Grammatik und ungewöhnliche Strukturen verwirren Klassifikatoren, die auf Standardtext trainiert wurden.
Kontext-Überlastung: Lange, stilisierte Prompts können einfache Sicherheitsmuster überlagern und das Modell dazu bewegen, eher „hilfreich“ als „vorsichtig“ zu sein[1][2].