Confiance et sécurité dans l'IA : comment les « jailbreaks » poétiques exposent les risques des LLM
La poésie ne devrait pas être capable de convaincre un système d'IA d'aider quelqu'un à fabriquer une arme nucléaire. Pourtant, des recherches récentes suggèrent que des prompts poétiques peuvent contourner les filtres de sécurité de nombreux grands modèles de langage (LLM). Pour toute organisation déployant de l'IA, il s'agit d'un avertissement clair concernant la confiance et la sécurité: les garde-fous ne suffisent pas. Vous avez besoin d'une gestion des risques liés à l'IA, d'une gouvernance et de pratiques de déploiement sécurisées.
Cet article explique ce que sont les « jailbreaks par la poésie », pourquoi ils sont importants pour la sécurité de l'IA en entreprise et comment les entreprises peuvent réagir avec des contrôles pratiques, allant des politiques de gouvernance aux tests continus.
Note: Nous ne fournissons, ne reproduisons et n'approuvons aucun prompt ou instruction nuisible. Notre objectif est de comprendre le risque et de protéger votre organisation.
Qu'est-ce que le « jailbreak poétique » et pourquoi est-ce important?
Fin 2025, des chercheurs de l'Icaro Lab (Université Sapienza de Rome et DexAI) ont publié une étude sur la « poésie antagoniste » comme moyen de déjouer les protections des LLM[1][2][3]. Leurs résultats montrent que:
- Les questions dangereuses — sur des sujets comme les armes nucléaires ou les logiciels malveillants — étaient rejetées lorsqu'elles étaient posées directement.
- Les mêmes questions, lorsqu'elles étaient intégrées dans des poèmes soigneusement élaborés, obtenaient souvent une réponse.
- Les taux de réussite étaient élevés sur de nombreux modèles commerciaux majeurs[1][2][3].
Plus précisément, des poèmes antagonistes conçus à la main ont atteint un taux de réussite moyen de 62 % sur 25 modèles testés, certains fournisseurs dépassant les 90 %[1][2][3]. Lorsque 1 200 prompts en prose nuisibles ont été automatiquement convertis en vers, les versions poétiques ont produit des taux de réussite d'environ 43 %, soit une multiplication par cinq par rapport aux bases de référence non poétiques qui n'avaient qu'un taux de réussite de 8,08 %[1][2].
L'idée s'appuie sur des travaux antérieurs concernant les suffixes antagonistes — des chaînes de caractères absurdes ou des ajouts longs et confus qui perturbent les filtres des modèles. Par exemple, la recherche sur les techniques antagonistes montre qu'un formatage de prompt non conventionnel peut contourner les contrôles de contenu.
Pourquoi le cadrage poétique peut contourner les garde-fous des modèles
À un niveau élevé, la plupart des systèmes de sécurité des LLM reposent sur la reconnaissance de formes:
- Les prompts système et les politiques indiquent au modèle ce qu'il doit ou ne doit pas faire.
- Les classificateurs de sécurité et les heuristiques scannent les prompts et les réponses à la recherche de contenu interdit (par exemple, discours de haine, instructions sur les armes).
Les attaques par poésie antagoniste exploitent les faiblesses de ces couches[1][2]:
- Indirection et métaphore: L'intention nuisible est enveloppée dans un langage indirect et figuratif qui ne correspond pas à des mots-clés ou des modèles simples.
- Syntaxe fragmentée: Une grammaire brisée et des structures inhabituelles perturbent les classificateurs entraînés sur du texte plus standard.
- Surcharge de contexte: Les prompts longs et stylisés peuvent noyer les modèles de sécurité simples, poussant le modèle à privilégier l'aspect « être utile » plutôt que « être prudent »[1][2].
Du point de vue de la confiance et de la sécurité dans l'IA, la leçon principale est que les filtres de contenu ne sont pas des interrupteurs binaires. Ils sont probabilistes, et les adversaires peuvent rechercher systématiquement des formulations qui passent à travers les mailles du filet.
Comment les garde-fous des LLM échouent: comportement du modèle et surfaces d'attaque
Pour concevoir des défenses sensées, il est utile de comprendre où se situent les garde-fous actuels et comment ils échouent.
Types de garde-fous dans les LLM modernes
La plupart des fournisseurs superposent plusieurs mécanismes:
- Filtres de pré-entraînement: Suppriment certains exemples nuisibles des données utilisées pour entraîner le modèle de base.
- Apprentissage par renforcement à partir de la rétroaction humaine (RLHF): Apprend aux modèles à être plus utiles, honnêtes et inoffensifs.
- Prompts système et politiques: Instructions telles que « ne jamais fournir de conseils sur des activités illégales ».
- Classificateurs de contenu: Vérifications externes ou intégrées au modèle qui signalent le contenu interdit.
- Filtres de post-traitement: Vérifications finales sur le texte généré avant qu'il n'atteigne l'utilisateur.
Ils sont cruciaux, mais ils fonctionnent sur des modèles observés pendant l'entraînement. Lorsque les attaquants inventent de nouvelles astuces linguistiques — comme les déguisements poétiques — le modèle peut se comporter de manière imprévue[1][2].
Comment les prompts antagonistes perturbent les filtres
Les prompts antagonistes (y compris les jailbreaks poétiques) tirent parti de plusieurs propriétés des LLM:
- Utilité sur-généralisée: Les LLM sont récompensés pour satisfaire les demandes des utilisateurs; si une demande semble bénigne ou artistique, la vigilance sécuritaire est affaiblie.
- Exploitation de l'ambiguïté: Si le texte peut plausiblement être interprété comme de la fiction, une métaphore ou une description inoffensive, le modèle peut choisir de répondre.
- Angles morts des classificateurs: Les classificateurs de sécurité sont souvent entraînés sur du contenu nuisible plus littéral et direct. Le libellé créatif ou oblique est sous-représenté.
Ce n'est pas seulement un problème théorique. Les études sur la sécurité des LLM et le jailbreaking menées par des groupes tels qu'Anthropic, OpenAI et des chercheurs universitaires constatent à plusieurs reprises que les nouvelles méthodes de jailbreak peuvent atteindre des taux de réussite élevés jusqu'à ce que les modèles soient mis à jour.
Du point de vue de la gouvernance de l'IA, cela signifie que les organisations ne peuvent pas considérer « le modèle X est sûr par défaut » comme une hypothèse durable. La sécurité est conditionnée par le contexte, la configuration et une surveillance continue.
Impact sur l'entreprise: ce que cela signifie pour les entreprises utilisant l'IA
La plupart des entreprises ne posent pas de questions aux LLM sur les armes nucléaires. Mais les mêmes faiblesses qui permettent des jailbreaks extrêmes peuvent exposer des vulnérabilités plus banales, mais critiques pour l'entreprise.
Scénarios de risque pour les chatbots orientés client et les agents internes
Certains scénarios réalistes incluent:
-
Contournement des politiques dans les chatbots clients Les utilisateurs pourraient amener un bot bancaire ou d'assurance à révéler des critères de notation internes, à faire allusion à des règles de détection de la fraude ou à suggérer des moyens de manipuler la tarification.
-
Fuite d'informations internes ou réglementées Les copilotes internes formés sur des données confidentielles pourraient être trompés, via des prompts indirects ou créatifs, pour résumer des documents sensibles ou partager des données personnelles, créant des incidents de sécurité des données IA.
-
Amplification de l'ingénierie sociale Les attaquants peuvent utiliser les LLM pour générer du contenu de phishing hautement ciblé, ou pour pratiquer des prompts antagonistes avant d'interagir avec vos systèmes publics.
-
Shadow AI et intégrations non vérifiées Les équipes peuvent intégrer des LLM à usage général dans leurs flux de travail sans examen de sécurité. Même si le modèle en amont est « sûr », votre intégration peut contourner ou affaiblir ses garde-fous.
Exposition réglementaire et réputationnelle
Les régulateurs et les organismes de normalisation convergent rapidement sur les attentes en matière de sécurité de l'IA en entreprise et de gouvernance:
- L'EU AI Act exige la gestion des risques, les tests et la surveillance pour les systèmes d'IA à haut risque.
- Le NIST AI Risk Management Framework met l'accent sur l'identification, la mesure et l'atténuation continues des risques liés à l'IA.
- Les réglementations sectorielles (par exemple, RGPD, HIPAA, règles de conduite financière) s'appliquent toujours lorsque la mauvaise gestion de l'IA entraîne une exposition de données ou des résultats discriminatoires.
Un seul incident de jailbreak très médiatisé — en particulier impliquant des conseils interdits, des incidents de sécurité ou la fuite de données personnelles — peut:
- Déclencher des enquêtes et des amendes.
- Nuire à la confiance des clients et à la perception de la marque.
- Forcer des retours en arrière soudains sur les fonctionnalités d'IA, compromettant votre feuille de route d'innovation.
C'est pourquoi la confiance et la sécurité dans l'IA doivent être traitées comme une fonction de risque d'entreprise, et non simplement comme une décision de sélection de modèle.
Contrôles opérationnels: déploiement et tests sécurisés de l'IA
Les choix technologiques et les pratiques de déploiement contribuent grandement au déploiement sécurisé de l'IA. L'objectif n'est pas d'éliminer complètement le risque, mais de rendre les attaques réussies plus rares, moins dommageables et rapidement détectables.
Red-teaming et tests antagonistes (sans partager les exploits)
Une gestion efficace des risques liés à l'IA nécessite des tests structurés:
- Red-teaming interne: Concevez des exercices où des experts en sécurité et en domaine tentent d'obtenir des comportements interdits de vos modèles, y compris des formulations créatives comme la poésie ou le jeu de rôle.
- Partenaires de tests externes: Travaillez avec des entreprises spécialisées ou des programmes de bug-bounty qui comprennent le comportement des LLM, avec des directives de divulgation claires qui évitent de rendre publics les prompts dangereux.
- Couverture des scénarios: Testez non seulement le contenu nuisible évident (armes, automutilation), mais aussi les risques spécifiques à l'entreprise: fraude, fuite de données, évasion des politiques.
Documentez et classez les résultats, puis réinjectez-les dans la configuration du modèle, l'ingénierie des prompts et les mises à jour des politiques.
Surveillance, journalisation et stratégies de retour en arrière
Même avec de bons tests, certains jailbreaks n'apparaîtront qu'en production. Les contrôles opérationnels devraient inclure:
- Journalisation complète (avec des garanties de confidentialité): Capturez les prompts et les réponses pour les systèmes à haut risque afin de pouvoir enquêter sur les incidents.
- Détection automatisée des anomalies: Utilisez des heuristiques ou des modèles secondaires pour signaler les modèles inhabituels (par exemple, des prompts longs et stylisés qui ressemblent à des attaques de jailbreak connues).
- Retour en arrière sécurisé et indicateurs de fonctionnalités: Facilitez la désactivation ou le réacheminement de certaines capacités (par exemple, la génération libre sur des sujets sensibles) pendant que vous enquêtez.
- Canaux de rétroaction: Permettez aux employés et aux clients de signaler un comportement suspect de l'IA.
Ce sont des pratiques de fiabilité standard, adaptées aux risques spécifiques des LLM.
Gouvernance, conformité et obligations des fournisseurs
Les contrôles technologiques ne sont qu'une partie de l'image. La gouvernance de l'IA définit les règles d'engagement: qui peut déployer quoi, sous quelles contraintes et avec quels contrôles.
Politiques, contrôles d'accès et SLA des fournisseurs
Les éléments clés de la gouvernance incluent:
- Politiques d'utilisation acceptable et de sécurité pour les systèmes d'IA, adaptées à votre secteur et à votre appétit pour le risque.
- Contrôle d'accès basé sur les rôles: Limitez qui peut déployer des modèles, modifier des prompts ou connecter de nouvelles sources de données.
- Inventaire des modèles et des fournisseurs: Maintenez une carte à jour de l'endroit où les LLM sont utilisés, des données qu'ils voient et des garde-fous en place.
- Diligence raisonnable des fournisseurs et SLA: Exigez de vos fournisseurs d'IA et de cloud qu'ils décrivent leurs architectures de sécurité, leurs cycles de mise à jour, leurs rapports d'incidents et leurs solutions de conformité IA.
Comment les solutions de conformité réduisent l'exposition de l'entreprise
Les approches de conformité modernes vont au-delà des audits de cases à cocher:
- Surveillance continue des contrôles: Validez que la journalisation, l'accès et les filtres de sécurité restent actifs et correctement configurés.
- Politique en tant que code: Implémentez certains garde-fous (par exemple, champs de données autorisés, règles de rédaction) directement dans le middleware, pas seulement dans des documents humains.
- Alignement avec les cadres: Mappez les contrôles sur des normes telles que le NIST AI RMF, ISO/IEC 42001 (systèmes de gestion de l'IA) et les règles sectorielles de protection des données.
Cela transforme les engagements de haut niveau en matière de confiance et de sécurité dans l'IA en mécanismes exécutoires.
Renforcement des agents et chatbots IA
De nombreuses organisations déploient désormais des copilotes personnalisés, des agents de flux de travail et des chatbots spécifiques à un domaine. Ceux-ci apportent de l'efficacité, mais aussi de nouvelles considérations de sécurité de l'IA en entreprise.
Choix de conception pour réduire les sorties sensibles
Lorsque vous concevez des agents IA personnalisés, vous pouvez:
- Minimiser les autorisations: Donnez à chaque agent l'accès uniquement aux données et aux outils dont il a absolument besoin.
- Contraindre la génération: Utilisez des sorties structurées, des modèles ou la génération augmentée par récupération (RAG) pour réduire le texte libre et spéculatif.
- Ajouter une approbation en plusieurs étapes pour les actions à haut risque (par exemple, modifier les limites des utilisateurs, émettre des remboursements) plutôt que de laisser l'agent agir de manière autonome.
- Implémenter des filtres secondaires: Appliquez des filtres de sujet et de prévention des pertes de données (DLP) autour du modèle, pas seulement à l'intérieur.
Ces approches réduisent le rayon d'impact lorsqu'une tentative de jailbreak réussit.
Où appliquer les filtres de contenu et gérer les compromis échelle/risque des LLM
Les modèles plus puissants sont généralement plus capables, mais aussi plus exploitables. Considérez:
- L'utilisation de modèles plus petits et étroitement définis pour des cas d'utilisation particulièrement sensibles.
- La combinaison de modèles: un pour le raisonnement, un autre pour la révision de la sécurité.
- Le placement de filtres à plusieurs couches: dans l'interface utilisateur, dans le middleware et au niveau de l'API du modèle.
Ceci est particulièrement important pour la sécurité des données IA, où une exposition accidentelle peut être aussi dommageable qu'une exfiltration délibérée.
Liste de contrôle pratique et prochaines étapes pour les équipes
Pour transformer ces concepts en action, les équipes interfonctionnelles (sécurité, données, produit, juridique, conformité) peuvent travailler sur une liste de contrôle ciblée.
Actions immédiates (0–90 jours)
-
Inventoriez vos systèmes d'IA Documentez où les LLM sont utilisés, quelles données ils accèdent et quels utilisateurs ils servent.
-
Classez les cas d'utilisation par risque Identifiez les domaines à fort impact: conseils aux clients, décisions financières, contextes de santé ou de sécurité, accès aux données personnelles.
-
Exécutez un exercice de red-teaming ciblé Incluez des prompts créatifs (par exemple, un libellé métaphorique ou poétique) pour tester les garde-fous.
-
Renforcez les configurations Activez les fonctionnalités de sécurité au niveau du fournisseur; ajoutez des vérifications middleware pour les sujets sensibles et les champs de données.
-
Mettez à jour les politiques et la formation Éduquez les développeurs, les chefs de produit et les équipes de support sur les risques de jailbreak et les pratiques de prompting sécurisées.
-
Établissez des chemins de surveillance et d'escalade Décidez ce qui est journalisé, qui examine les incidents et à quelle vitesse vous réagissez.
Actions à moyen terme (3–12 mois)
- Alignez-vous sur un cadre de risque formel tel que le NIST AI RMF ou des conseils spécifiques au secteur de la part des régulateurs.
- Intégrez le risque lié à l'IA dans la gestion des risques de l'entreprise: rapports au niveau du conseil d'administration, registres des risques et audit interne.
- Automatisez les évaluations dans la mesure du possible, afin que les nouveaux déploiements déclenchent des examens standardisés au lieu de vérifications ad hoc.
Pour une idée plus large des meilleures pratiques, les ressources du NIST, les principes de l'OCDE sur l'IA et les pages de recherche sur la sécurité des principaux fournisseurs offrent des conseils utiles.
Où les partenaires spécialisés s'intègrent
Toutes les organisations n'ont pas une expertise interne approfondie en ingénierie de sécurité des LLM, en tests de jailbreak et en gouvernance de l'IA. Travailler avec un intégrateur spécialisé peut accélérer votre parcours de l'expérimentation à des opérations robustes et conformes.
Encorp.ai se concentre sur des solutions d'IA pragmatiques et sécurisées pour les entreprises. Nos solutions de gestion des risques liés à l'IA aident les équipes à automatiser des parties de leurs flux de travail d'évaluation des risques liés à l'IA, à intégrer des contrôles de sécurité et de conformité dans les pipelines de livraison et à passer d'examens ponctuels à une surveillance continue.
Si vous planifiez ou mettez à l'échelle des initiatives d'IA, vous pouvez également explorer nos services plus larges sur https://encorp.ai pour voir comment nous abordons les déploiements d'IA sécurisés et axés sur la valeur.
Conclusion: équilibrer innovation et sécurité
Les jailbreaks poétiques sont un rappel vivant que la confiance et la sécurité dans l'IA ne sont pas résolues par un réglage ponctuel du modèle ou une poignée de filtres de contenu[1][2]. Alors que les attaquants découvrent de nouvelles façons de déguiser l'intention — par le vers, le jeu de rôle ou d'autres prompts créatifs — les organisations doivent traiter la sécurité des LLM comme un programme continu, et non comme une fonctionnalité.
En combinant une gestion solide des risques liés à l'IA, une gouvernance de l'IA robuste, une conception minutieuse des agents et des chatbots, et des pratiques de déploiement sécurisé de l'IA, les entreprises peuvent capturer les avantages de l'IA générative tout en gardant les risques inacceptables sous contrôle. L'objectif n'est pas d'éliminer chaque échec, mais de comprendre où vos systèmes sont vulnérables, de construire des défenses sensées et de réagir rapidement lorsque les choses tournent mal.
Traitée de cette manière, l'IA devient non seulement puissante, mais aussi digne de confiance — une technologie sur laquelle vos clients, vos employés et vos régulateurs peuvent compter.
Martin Kuvandzhiev
CEO and Founder of Encorp.io with expertise in AI and business transformation