Confianza y seguridad en IA: Riesgos de jailbreaks poéticos

Los poemas no deberían ser capaces de convencer a un sistema de IA para que ayude a alguien a construir un arma nuclear. Sin embargo, investigaciones recientes sugieren que los prompts poéticos pueden eludir los filtros de seguridad en muchos modelos de lenguaje de gran tamaño (LLM). Para cualquier organización que despliegue IA, esta es una clara advertencia sobre la confianza y seguridad en la IA: los guardrails por sí solos no son suficientes. Se necesita una gestión de riesgos de IA, gobernanza y prácticas de despliegue seguro sistemáticas.

Este artículo explica qué son los "jailbreaks poéticos", por qué son importantes para la seguridad de la IA empresarial y cómo las empresas pueden responder con controles prácticos, desde políticas de gobernanza hasta pruebas continuas.

Nota: No proporcionamos, reproducimos ni respaldamos prompts o instrucciones dañinas. Nuestro enfoque se centra en comprender el riesgo y proteger a su organización.

Qué es el "jailbreak poético" y por qué importa

A finales de 2025, investigadores del Icaro Lab (Universidad Sapienza de Roma y DexAI) publicaron un estudio sobre la "poesía adversarial" como una forma de vencer las salvaguardas de los LLM[1][2][3]. Sus resultados muestran que:

Las preguntas peligrosas —sobre temas como armas nucleares o malware— eran rechazadas cuando se hacían directamente.
Las mismas preguntas, cuando se incluían en poemas cuidadosamente elaborados, a menudo obtenían respuesta.
Las tasas de éxito fueron altas en muchos de los principales modelos comerciales[1][2][3].

Específicamente, los poemas adversariales creados manualmente lograron una tasa de éxito de ataque promedio del 62% en 25 modelos probados, con algunos proveedores superando el 90%[1][2][3]. Cuando 1,200 prompts de prosa dañinos se convirtieron automáticamente en verso, las versiones poéticas produjeron tasas de éxito de aproximadamente el 43%, lo que representa un aumento de cinco veces en comparación con las líneas base no poéticas, que solo tuvieron tasas de éxito del 8.08%[1][2].

La idea se basa en trabajos previos sobre sufijos adversariales: cadenas sin sentido o complementos largos y confusos que interrumpen los filtros del modelo. Por ejemplo, la investigación sobre técnicas adversariales muestra que el formato de prompt poco convencional puede eludir los controles de contenido.

Por qué el encuadre poético puede eludir los guardrails del modelo

A nivel general, la mayoría de los sistemas de seguridad en los LLM dependen del reconocimiento de patrones:

Los prompts del sistema y las políticas le dicen al modelo lo que debe o no debe hacer.
Los clasificadores de seguridad y heurísticas escanean los prompts y las respuestas en busca de contenido no permitido (por ejemplo, discurso de odio, instrucciones sobre armas).

Los ataques de poesía adversarial explotan debilidades en estas capas[1][2]:

Indirección y metáfora: La intención dañina se envuelve en un lenguaje indirecto y figurativo que no coincide con palabras clave o patrones simples.
Sintaxis fragmentada: La gramática rota y las estructuras inusuales confunden a los clasificadores entrenados con texto más estándar.
Sobrecarga de contexto: Los prompts largos y estilizados pueden ahogar los patrones de seguridad simples, empujando al modelo hacia "ser útil" en lugar de "ser cuidadoso".[1][2]

Desde la perspectiva de la confianza y seguridad en la IA, la lección principal es que los filtros de contenido no son interruptores binarios. Son probabilísticos, y los adversarios pueden buscar sistemáticamente formulaciones que se filtren.

Cómo fallan los guardrails de los LLM: comportamiento del modelo y superficies de ataque

Para diseñar defensas sensatas, es útil entender dónde se encuentran los guardrails actuales y cómo fallan.

Tipos de guardrails en los LLM modernos

La mayoría de los proveedores aplican varios mecanismos:

Filtros de pre-entrenamiento: Eliminan algunos ejemplos dañinos de los datos utilizados para entrenar el modelo base.
Aprendizaje por refuerzo a partir de retroalimentación humana (RLHF): Enseña a los modelos a ser más útiles, honestos e inofensivos.
Prompts del sistema y políticas: Instrucciones como "nunca proporciones orientación sobre actividades ilegales".
Clasificadores de contenido: Comprobaciones externas o dentro del modelo que marcan contenido no permitido.
Filtros de post-procesamiento: Comprobaciones finales sobre el texto generado antes de que llegue al usuario.

Estos son cruciales, pero operan sobre patrones vistos durante el entrenamiento. Cuando los atacantes inventan nuevos trucos lingüísticos, como los disfraces poéticos, el modelo puede comportarse de maneras imprevistas[1][2].

Cómo los prompts adversariales confunden a los filtros

Los prompts adversariales (incluidos los jailbreaks poéticos) aprovechan varias propiedades de los LLM:

Utilidad sobregeneralizada: Los LLM son recompensados por satisfacer las solicitudes de los usuarios; si una solicitud parece benigna o artística, la inclinación hacia la seguridad se debilita.
Explotación de la ambigüedad: Si el texto puede interpretarse plausiblemente como ficción, metáfora o descripción inofensiva, el modelo puede optar por responder.
Puntos ciegos de los clasificadores: Los clasificadores de seguridad a menudo se entrenan con contenido dañino más literal y directo. La redacción creativa u oblicua está subrepresentada.

Esto no es solo un problema teórico. Los estudios sobre seguridad de LLM y jailbreaking de grupos como Anthropic, OpenAI e investigadores académicos encuentran repetidamente que los nuevos métodos de jailbreak pueden lograr altas tasas de éxito hasta que los modelos se actualizan.

Desde el punto de vista de la gobernanza de la IA, esto significa que las organizaciones no pueden tratar "el modelo X es seguro por defecto" como una suposición duradera. La seguridad depende del contexto, la configuración y la supervisión continua.

Impacto empresarial: qué significa esto para las empresas que usan IA

La mayoría de las empresas no están preguntando a los LLM sobre armas nucleares. Pero las mismas debilidades que permiten jailbreaks extremos pueden exponer vulnerabilidades más mundanas, pero críticas para el negocio.

Escenarios de riesgo para chatbots orientados al cliente y agentes internos

Algunos escenarios realistas incluyen:

Evasión de políticas en chatbots de atención al cliente Los usuarios podrían convencer a un bot bancario o de seguros para que revele criterios de puntuación internos, insinúe reglas de detección de fraude o sugiera formas de manipular los precios.
Fuga de información interna o regulada Los copilotos internos entrenados con datos confidenciales podrían ser engañados, mediante prompts indirectos o creativos, para resumir documentos sensibles o compartir datos personales, creando incidentes de seguridad de datos de IA.
Amplificación de ingeniería social Los atacantes pueden usar LLM para generar contenido de phishing altamente dirigido, o para practicar prompts adversariales antes de interactuar con sus sistemas públicos.
Shadow AI e integraciones no verificadas Los equipos pueden integrar LLM de propósito general en flujos de trabajo sin revisión de seguridad. Incluso si el modelo ascendente es "seguro", su integración puede eludir o debilitar sus salvaguardas.

Exposición regulatoria y reputacional

Los reguladores y los organismos de normalización están convergiendo rápidamente en las expectativas para la seguridad de la IA empresarial y la gobernanza:

La Ley de IA de la UE exige gestión de riesgos, pruebas y monitoreo para sistemas de IA de alto riesgo.
El Marco de Gestión de Riesgos de IA del NIST enfatiza la identificación, medición y mitigación continua de los riesgos de IA.
Las regulaciones sectoriales (por ejemplo, GDPR, HIPAA, reglas de conducta financiera) siguen aplicándose cuando el mal manejo de la IA conduce a la exposición de datos o resultados discriminatorios.

Un solo incidente de jailbreak de alto perfil, especialmente uno que involucre consejos no permitidos, incidentes de seguridad o fuga de datos personales, puede:

Desencadenar investigaciones y multas.
Dañar la confianza del cliente y la percepción de la marca.
Forzar reversiones repentinas de funciones de IA, socavando su hoja de ruta de innovación.

Es por esto que la confianza y seguridad en la IA debe tratarse como una función de riesgo empresarial, no solo como una decisión de selección de modelos.

Controles operativos: despliegue y pruebas seguras de IA

Las opciones tecnológicas y las prácticas de despliegue contribuyen en gran medida al despliegue seguro de IA. El objetivo no es eliminar el riesgo por completo, sino hacer que los ataques exitosos sean más raros, menos dañinos y rápidamente detectables.

Red-teaming y pruebas adversariales (sin compartir exploits)

La gestión de riesgos de IA efectiva requiere pruebas estructuradas:

Red-teaming interno: Diseñe ejercicios donde expertos en seguridad y dominio intenten provocar comportamientos no permitidos en sus modelos, incluyendo formulaciones creativas como poesía o juegos de rol.
Socios de pruebas externos: Trabaje con firmas especializadas o programas de bug-bounty que entiendan el comportamiento de los LLM, con pautas de divulgación claras que eviten publicar prompts peligrosos.
Cobertura de escenarios: Pruebe no solo contenido dañino obvio (armas, autolesiones) sino también riesgos específicos del negocio: fraude, fuga de datos, evasión de políticas.

Documente y clasifique los hallazgos, luego incorpórelos a la configuración del modelo, la ingeniería de prompts y las actualizaciones de políticas.

Estrategias de monitoreo, registro y reversión

Incluso con buenas pruebas, algunos jailbreaks solo aparecerán en producción. Los controles operativos deben incluir:

Registro integral (con salvaguardas de privacidad): Capture prompts y respuestas para sistemas de alto riesgo para que pueda investigar incidentes.
Detección automatizada de anomalías: Use heurísticas o modelos secundarios para marcar patrones inusuales (por ejemplo, prompts largos y estilizados que se asemejan a ataques de jailbreak conocidos).
Reversión segura y flags de funciones: Facilite la desactivación o redirección de ciertas capacidades (por ejemplo, generación de forma libre en temas sensibles) mientras investiga.
Canales de retroalimentación: Permita que los empleados y clientes informen sobre comportamientos sospechosos de la IA.

Estas son prácticas estándar de confiabilidad, adaptadas a los riesgos específicos de los LLM.

Gobernanza, cumplimiento y obligaciones de los proveedores

Los controles tecnológicos son solo una parte del panorama. La gobernanza de la IA define las reglas de compromiso: quién puede desplegar qué, bajo qué restricciones y con qué controles.

Políticas, controles de acceso y SLA de proveedores

Los elementos clave de gobernanza incluyen:

Políticas de uso aceptable y seguridad para sistemas de IA, adaptadas a su sector y apetito de riesgo.
Control de acceso basado en roles: Limite quién puede desplegar modelos, cambiar prompts o conectar nuevas fuentes de datos.
Inventario de modelos y proveedores: Mantenga un mapa actualizado de dónde se utilizan los LLM, qué datos ven y qué salvaguardas existen.
Debida diligencia y SLA de proveedores: Exija a sus proveedores de IA y nube que describan sus arquitecturas de seguridad, ciclos de actualización, informes de incidentes y soluciones de cumplimiento de IA.

Cómo las soluciones de cumplimiento reducen la exposición empresarial

Los enfoques de cumplimiento modernos van más allá de las auditorías de casilla de verificación:

Monitoreo continuo de controles: Valide que el registro, el acceso y los filtros de seguridad permanezcan activos y configurados correctamente.
Política como código: Implemente ciertos guardrails (por ejemplo, campos de datos permitidos, reglas de redacción) directamente en el middleware, no solo en documentos humanos.
Alineación con marcos: Asigne controles a estándares como NIST AI RMF, ISO/IEC 42001 (sistemas de gestión de IA) y reglas sectoriales de protección de datos.

Esto convierte los compromisos de alto nivel de confianza y seguridad en IA en mecanismos ejecutables.

Fortalecimiento de agentes y chatbots de IA

Muchas organizaciones están desplegando copilotos personalizados, agentes de flujo de trabajo y chatbots específicos de dominio. Estos aportan eficiencia, pero también nuevas consideraciones de seguridad de la IA empresarial.

Opciones de diseño para reducir salidas sensibles

Cuando diseña agentes de IA personalizados, puede:

Minimizar permisos: Dé a cada agente acceso solo a los datos y herramientas que realmente necesita.
Restringir la generación: Use salidas estructuradas, plantillas o generación aumentada por recuperación (RAG) para reducir el texto especulativo de forma libre.
Agregar aprobación de varios pasos para acciones de alto riesgo (por ejemplo, cambiar límites de usuario, emitir reembolsos) en lugar de dejar que el agente actúe de forma autónoma.
Implementar filtros secundarios: Aplique filtros de tema y prevención de pérdida de datos (DLP) alrededor del modelo, no solo dentro de él.

Estos enfoques reducen el radio de explosión cuando un intento de jailbreak tiene éxito.

Dónde aplicar filtros de contenido y gestionar las compensaciones de escala/riesgo de los LLM

Los modelos más potentes son generalmente más capaces, pero también más explotables. Considere:

Usar modelos más pequeños y con un alcance limitado para casos de uso particularmente sensibles.
Combinar modelos: uno para razonamiento, otro para revisión de seguridad.
Colocar filtros en múltiples capas: en la interfaz de usuario, en el middleware y en la API del modelo.

Esto es especialmente importante para la seguridad de datos de IA, donde la exposición accidental puede ser tan dañina como la exfiltración deliberada.

Lista de verificación práctica y próximos pasos para los equipos

Para convertir estos conceptos en acción, los equipos multifuncionales (seguridad, datos, producto, legal, cumplimiento) pueden trabajar a través de una lista de verificación enfocada.

Acciones inmediatas (0–90 días)

Inventaríe sus sistemas de IA Documente dónde se utilizan los LLM, a qué datos acceden y a qué usuarios sirven.
Clasifique los casos de uso por riesgo Identifique áreas de alto impacto: asesoramiento al cliente, decisiones financieras, contextos de salud o seguridad, acceso a datos personales.
Ejecute un ejercicio de red-teaming dirigido Incluya prompts creativos (por ejemplo, redacción metafórica o poética) para probar los guardrails.
Endurezca las configuraciones Habilite funciones de seguridad a nivel de proveedor; agregue comprobaciones de middleware para temas sensibles y campos de datos.
Actualice políticas y capacitación Eduque a desarrolladores, gerentes de producto y equipos de soporte sobre los riesgos de jailbreak y las prácticas de prompts seguros.
Establezca monitoreo y rutas de escalada Decida qué se registra, quién revisa los incidentes y qué tan rápido responde.

Acciones a mediano plazo (3–12 meses)

Alinéese con un marco de riesgo formal como NIST AI RMF u orientación específica del sector de los reguladores.
Integre el riesgo de IA en la gestión de riesgos empresariales: informes a nivel de junta directiva, registros de riesgos y auditoría interna.
Automatice las evaluaciones siempre que sea posible, para que los nuevos despliegues activen revisiones estandarizadas en lugar de comprobaciones ad hoc.

Para obtener un sentido más amplio de las mejores prácticas, los recursos del NIST, los principios de IA de la OCDE y las páginas de investigación de seguridad de los principales proveedores ofrecen una guía útil.

Dónde encajan los socios especializados

No todas las organizaciones tienen una profunda experiencia interna en ingeniería de seguridad de LLM, pruebas de jailbreak y gobernanza de IA. Trabajar con un integrador especializado puede acelerar su viaje desde la experimentación hasta operaciones robustas y conformes.

Encorp.ai se centra en soluciones de IA pragmáticas y seguras para empresas. Nuestras soluciones de gestión de riesgos de IA ayudan a los equipos a automatizar partes de sus flujos de trabajo de evaluación de riesgos de IA, integrar comprobaciones de seguridad y cumplimiento en los pipelines de entrega y pasar de revisiones únicas a una supervisión continua.

Si está planificando o escalando iniciativas de IA, también puede explorar nuestros servicios más amplios en https://encorp.ai para ver cómo abordamos los despliegues de IA seguros y orientados al valor.

Conclusión: equilibrar la innovación y la seguridad

Los jailbreaks poéticos son un recordatorio vívido de que la confianza y seguridad en la IA no se resuelven con un ajuste de modelo único o un puñado de filtros de contenido[1][2]. A medida que los atacantes descubren nuevas formas de disfrazar la intención (a través de versos, juegos de rol u otros prompts creativos), las organizaciones deben tratar la seguridad de los LLM como un programa continuo, no como una característica.

Al combinar una sólida gestión de riesgos de IA, una gobernanza de IA robusta, un diseño cuidadoso de agentes y chatbots, y prácticas de despliegue seguro de IA, las empresas pueden capturar los beneficios de la IA generativa mientras mantienen bajo control los riesgos inaceptables. El objetivo no es eliminar cada falla, sino entender dónde son vulnerables sus sistemas, construir defensas sensatas y responder rápidamente cuando algo sale mal.

Manejada de esta manera, la IA se vuelve no solo poderosa, sino confiable: una tecnología en la que sus clientes, empleados y reguladores pueden confiar.

Nota: No proporcionamos, reproducimos ni respaldamos prompts o instrucciones dañinas. Nuestro enfoque se centra en comprender el riesgo y proteger a su organización.

Qué es el "jailbreak poético" y por qué importa

Las preguntas peligrosas —sobre temas como armas nucleares o malware— eran rechazadas cuando se hacían directamente.
Las mismas preguntas, cuando se incluían en poemas cuidadosamente elaborados, a menudo obtenían respuesta.
Las tasas de éxito fueron altas en muchos de los principales modelos comerciales[1][2][3].

Por qué el encuadre poético puede eludir los guardrails del modelo

A nivel general, la mayoría de los sistemas de seguridad en los LLM dependen del reconocimiento de patrones:

Los prompts del sistema y las políticas le dicen al modelo lo que debe o no debe hacer.
Los clasificadores de seguridad y heurísticas escanean los prompts y las respuestas en busca de contenido no permitido (por ejemplo, discurso de odio, instrucciones sobre armas).

Los ataques de poesía adversarial explotan debilidades en estas capas[1][2]:

Indirección y metáfora: La intención dañina se envuelve en un lenguaje indirecto y figurativo que no coincide con palabras clave o patrones simples.
Sintaxis fragmentada: La gramática rota y las estructuras inusuales confunden a los clasificadores entrenados con texto más estándar.
Sobrecarga de contexto: Los prompts largos y estilizados pueden ahogar los patrones de seguridad simples, empujando al modelo hacia "ser útil" en lugar de "ser cuidadoso".[1][2]