Los primeros ataques a agentes de IA anticipan cómo será la ciberseguridad en 2026

101
ia-ciberseguridad-2026

A medida que la IA pasa de experimentos controlados a aplicaciones reales, estamos entrando en un punto de inflexión en el panorama de la seguridad. La transición de modelos de lenguaje estáticos a sistemas interactivos y agénticos capaces de explorar documentos, invocar herramientas y orquestar flujos de trabajo de varios pasos ya está en marcha.

Pero, como revelan investigaciones recientes, los atacantes no esperan a la madurez: se están adaptando al mismo ritmo, probando los sistemas en cuanto se introducen nuevas capacidades.

Ciberseguridad

En el cuarto trimestre de 2025, el equipo de Lakera analizó el comportamiento real de los atacantes en sistemas protegidos por Guard y dentro del entorno de Gandalf: Agent Breaker: una instantánea de 30 días que, a pesar de su breve período, refleja los patrones más amplios a lo largo del trimestre.

Los hallazgos presentan un panorama claro: en cuanto los modelos comienzan a interactuar con algo más allá de simples indicaciones de texto (por ejemplo, documentos, herramientas, datos externos), la superficie de amenaza se expande y los adversarios se adaptan instantáneamente para explotarla.

Este momento puede resultar familiar para quienes observaron la evolución de las primeras aplicaciones web o el auge de los ataques basados en API. Pero con los agentes de IA, la situación es diferente. Los vectores de ataque están surgiendo más rápido de lo que muchas organizaciones anticiparon.

De la teoría a la práctica: agentes en acción

Durante gran parte de 2025, los debates en torno a los agentes de IA se centraron principalmente en el potencial teórico y los primeros prototipos. Pero para el cuarto trimestre, los comportamientos agénticos comenzaron a aparecer en los sistemas de producción a gran escala: modelos capaces de obtener y analizar documentos, interactuar con API externas y realizar tareas automatizadas. Estos agentes ofrecían evidentes beneficios de productividad, pero también abrían puertas que los modelos de lenguaje tradicionales no ofrecían.

Nuestro análisis muestra que en el instante en que los agentes se volvieron capaces de interactuar con contenido y herramientas externas, los atacantes lo notaron y se adaptaron en consecuencia. Esta observación concuerda con una verdad fundamental sobre el comportamiento adversario: los atacantes siempre explorarán y explotarán nuevas capacidades a la primera oportunidad. En el contexto de la IA agente, esto llevó a una rápida evolución de las estrategias de ataque.

Patrones de ataque: lo que observamos en el cuarto trimestre de 2025

En el conjunto de datos analizados, surgieron tres patrones dominantes. Cada uno tiene profundas implicaciones para el diseño, la seguridad y la implementación de los sistemas de IA.

1. Extracción de indicaciones del sistema como objetivo principal

En los modelos de lenguaje tradicionales, la inyección de indicaciones (manipulación directa de la entrada para influir en la salida) fue una vulnerabilidad bien estudiada. Sin embargo, en sistemas con capacidades de agente, los atacantes se centran cada vez más en las indicaciones del sistema, que son las instrucciones internas, los roles y las definiciones de políticas que guían el comportamiento del agente.

La extracción de indicaciones del sistema es un objetivo de gran valor, ya que estas indicaciones suelen contener definiciones de roles, descripciones de herramientas, instrucciones de políticas y lógica de flujo de trabajo. Una vez que un atacante comprende estos mecanismos internos, obtiene un modelo para manipular al agente.

Las técnicas más efectivas para lograr esto no fueron ataques de fuerza bruta, sino un replanteamiento inteligente.

Escenarios hipotéticos

Las indicaciones que pedían al modelo asumir un rol o contexto diferente (por ejemplo, «Imagina que eres un desarrollador que revisa la configuración de este sistema…») solían inducir al modelo a revelar detalles internos protegidos.

Ofuscación dentro de contenido estructurado

Los atacantes incorporaron instrucciones maliciosas dentro de texto estructurado o similar a código que eludía filtros simples y desencadenaba comportamientos no deseados una vez analizados por el agente.

Esto no es solo un riesgo incremental, sino que altera fundamentalmente nuestra forma de pensar sobre la protección de la lógica interna en los sistemas agénticos.

2. Evitaciones sutiles de la seguridad del contenido

Otra tendencia clave consiste en eludir las protecciones de seguridad del contenido de maneras difíciles de detectar y mitigar con los filtros tradicionales.

En lugar de solicitudes abiertamente maliciosas, los atacantes enmarcaron el contenido dañino como:

  • Tareas de análisis
  • Evaluaciones
  • Escenarios de juego de roles
  • Transformaciones o resúmenes

Estas reformulaciones a menudo eludían los controles de seguridad porque a primera vista parecían benignas. Un modelo que rechazara una solicitud directa de resultados dañinos podría producir fácilmente el mismo resultado cuando se le pidiera que lo «evaluara» o «resumiera» en contexto.

Este cambio subraya un desafío más profundo: la seguridad del contenido para los agentes de IA no se trata solo de la aplicación de políticas, sino de cómo los modelos interpretan la intención. A medida que los agentes asumen tareas y contextos más complejos, los modelos se vuelven más susceptibles a la reinterpretación basada en el contexto, y los atacantes aprovechan este comportamiento.

3. Aparición de ataques específicos de agente

Quizás el hallazgo más relevante fue la aparición de patrones de ataque que solo tienen sentido en el contexto de las capacidades de la agencia. Estos no fueron simples intentos de inyección de avisos, sino exploits vinculados a nuevos comportamientos.

Intentos de acceso a datos internos confidenciales

Se diseñaron avisos para convencer al agente de recuperar o exponer información de almacenes de documentos o sistemas conectados, acciones que anteriormente habrían estado fuera del alcance del modelo.

Instrucciones con formato de script incrustadas en texto

Los atacantes experimentaron con la incrustación de instrucciones en formatos similares a scripts o contenido estructurado, que podían fluir a través de una canalización del agente y desencadenar acciones no deseadas.

Instrucciones ocultas en contenido externo

Varios ataques incrustaron directivas maliciosas dentro de contenido referenciado externamente, como páginas web o documentos que el agente debía procesar, eludiendo eficazmente los filtros de entrada directa.

Estos patrones son incipientes, pero señalan un futuro en el que la expansión de las capacidades de los agentes cambiará fundamentalmente la naturaleza del comportamiento adversario.

¿Por qué los ataques indirectos son tan efectivos?

Uno de los hallazgos más sorprendentes del informe es que los ataques indirectos (aquellos que aprovechan contenido externo o datos estructurados) requirieron menos intentos que las inyecciones directas. Esto sugiere que la desinfección de entrada tradicional y el filtrado de consultas directas son defensas insuficientes una vez que los modelos interactúan con contenido no confiable.

Cuando una instrucción dañina llega a través del flujo de trabajo de un agente externo, ya sea un documento vinculado, una respuesta de API o una página web obtenida, los filtros tempranos son menos efectivos. Como resultado, los atacantes tienen una mayor superficie de ataque y menos obstáculos.

Implicaciones para 2026 y años posteriores

Las conclusiones del informe tienen implicaciones urgentes para las organizaciones que planean implementar IA agentica a escala.

1. Redefinir los límites de la confianza

La confianza no puede ser simplemente binaria. A medida que los agentes interactúan con los usuarios, el contenido externo y los flujos de trabajo internos, los sistemas deben implementar modelos de confianza matizados que consideren el contexto, la procedencia y el propósito.

2. Las barreras de seguridad deben evolucionar

Los filtros de seguridad estáticos no son suficientes. Las barreras deben ser adaptativas, sensibles al contexto y capaces de razonar sobre la intención y el comportamiento en flujos de trabajo de varios pasos.

3. La transparencia y la auditoría son esenciales

A medida que los vectores de ataque se vuelven más complejos, las organizaciones necesitan visibilidad sobre cómo los agentes toman decisiones, incluyendo los pasos intermedios, las interacciones externas y las transformaciones. Los registros auditables y los marcos de explicabilidad ya no son opcionales.

4. La colaboración interdisciplinaria es clave

Los equipos de investigación en IA, ingeniería de seguridad e inteligencia de amenazas deben colaborar. La seguridad de la IA no puede aislarse; debe integrarse con prácticas de ciberseguridad más amplias y marcos de gestión de riesgos.

5. La regulación y los estándares deberán actualizarse

Los legisladores y los organismos de normalización deben reconocer que los sistemas agénticos generan nuevos tipos de riesgo. Las regulaciones que abordan la privacidad de los datos y la seguridad de los resultados son necesarias, pero no suficientes; también deben tener en cuenta los comportamientos interactivos y los entornos de ejecución de múltiples pasos.

El futuro de los agentes de IA seguros

La llegada de la IA agéntica representa un cambio profundo en la capacidad y el riesgo. Los datos del cuarto trimestre de 2025 son un indicador temprano de que, en cuanto los agentes comiencen a operar más allá de la simple generación de texto, los atacantes los seguirán. Nuestros hallazgos muestran que los adversarios no solo se están adaptando, sino que también están innovando técnicas de ataque que las defensas tradicionales aún no están preparadas para contrarrestar.

Para las empresas y los desarrolladores, el mensaje es claro: proteger los agentes de IA no es solo un desafío técnico, sino también arquitectónico. Requiere repensar cómo se establece la confianza, cómo se aplican las medidas de seguridad y cómo se evalúa continuamente el riesgo en entornos dinámicos e interactivos.

A partir de 2026, las organizaciones que triunfen con la IA agente serán aquellas que consideren la seguridad no como una cuestión de último momento, sino como un principio fundamental de diseño.

 

Columna escrita por Mateo Rojas-Carulla, director de Investigación de Seguridad de Agentes de IA en Check Point Software Technologies.

ia-ciberseguridad-2026
Mateo Rojas-Carulla, director de Investigación de Seguridad de Agentes de IA en Check Point Software Technologies.

 

 

Seguinos en las redes:

Facebook: https://bit.ly/TodoRiesgoFacebook

Instagram: https://bit.ly/3OOsqMo

LinkedIn: https://bit.ly/TodoRiesgoLinkedIn

X: https://bit.ly/TodoRiesgoTwitter

YouTube: https://bit.ly/TodoRiesgoYouTube