AI Agent Zero Trust: Deconstructing the Credential Blast Radius

Una crisis de seguridad emerge mientras el 79% de las organizaciones usa agentes de IA, pero solo el 14.4% garantiza su seguridad total. Este análisis examina el "problema del agente monolítico" donde las credenciales coexisten con código no confiable y evalúa dos arquitecturas innovadoras de Anthropic y Nvidia que redefinen la confianza cero para la IA, priorizando el aislamiento de credenciales y la reducción de la superficie de ataque.

La Crisis de Confianza en la Era de los Agentes de IA

Setenta y nueve por ciento de las organizaciones ya utilizan agentes de IA, según la Encuesta de Agentes de IA 2025 de PwC. Sin embargo, solo el 14.4% informó tener aprobación de seguridad completa para toda su flota de agentes, de acuerdo con el informe Gravitee State of AI Agent Security 2026, que encuestó a 919 organizaciones en febrero de 2026. Este marcado contraste subraya una "emergencia de gobernanza" en ciberseguridad, donde la velocidad de despliegue de la IA supera drásticamente la preparación de seguridad. En la conferencia RSAC 2026, líderes de la industria como Vasu Jakkal de Microsoft, Jeetu Patel de Cisco, George Kurtz de CrowdStrike y John Morgan de Splunk, de forma independiente, señalaron la misma preocupación: la necesidad urgente de extender la confianza cero a los agentes de IA.

El vicepresidente de Productos de Identidad y Duo en Cisco, Matt Caulfield, articuló el problema con una franqueza impactante en una entrevista exclusiva con VentureBeat en RSAC:

“Si bien el concepto de confianza cero es bueno, debemos llevarlo un paso más allá. No se trata solo de autenticar una vez y luego dejar que el agente corra salvaje. Se trata de verificar y escudriñar continuamente cada acción que el agente intenta realizar, porque en cualquier momento, ese agente puede volverse rebelde.”

Este es el corazón del problema de seguridad que enfrentamos con la creciente adopción de agentes autónomos.

El Problema del Agente Monolítico: Un Riesgo de Seguridad Inaceptable

El patrón predeterminado de los agentes empresariales es un contenedor monolítico. En este modelo, el agente realiza razonamientos, invoca herramientas, ejecuta código generado y, críticamente, mantiene las credenciales dentro del mismo proceso. Cada componente confía implícitamente en los demás. Esto significa que tokens OAuth, claves de API y credenciales de Git residen en el mismo entorno donde el agente ejecuta código que pudo haber escrito hace solo unos segundos. La implicación es clara: una inyección de

prompt

exitosa le da al atacante acceso a todo. Los tokens son exfiltrables, las sesiones pueden ser secuestradas, y el radio de explosión no se limita al agente; se extiende a todo el contenedor y a cada servicio conectado.

Las estadísticas de la encuesta de la CSA y Aembit a 228 profesionales de TI y seguridad cuantifican la magnitud de esta vulnerabilidad: el 43% utiliza cuentas de servicio compartidas para agentes, el 52% depende de identidades de carga de trabajo en lugar de credenciales específicas del agente, y un asombroso 68% no puede distinguir la actividad del agente de la actividad humana en sus registros. No solo hay una falla técnica, sino una brecha de responsabilidad: la seguridad lo atribuía a los desarrolladores, y los desarrolladores a seguridad. Nadie se hacía cargo.

El CTO de CrowdStrike, Elia Zaitsev, señaló que este patrón debería resultar familiar para los equipos de seguridad:

“Asegurar a los agentes se parecerá mucho a asegurar a los usuarios altamente privilegiados. Tienen identidades, tienen acceso a sistemas subyacentes, razonan, toman acciones.”

Esta analogía resalta la necesidad de una estrategia de defensa en profundidad, no una solución única. De hecho, la campaña de la cadena de suministro ClawHavoc, dirigida al framework agentic OpenClaw y revelada en RSAC, demostró la severidad del problema. Koi Security identificó la campaña el 1 de febrero de 2026, y Antiy CERT confirmó 1,184 habilidades maliciosas. La investigación ToxicSkills de Snyk encontró que el 36.8% de 3,984 habilidades escaneadas contenían fallas de seguridad, con un 13.4% calificadas como críticas. El tiempo promedio de irrupción ha caído a 29 minutos, con el más rápido observado en 27 segundos, según el Informe Global de Amenazas 2026 de CrowdStrike. El riesgo es inminente y rápido.

Solución 1: Anthropic Managed Agents – Separando el Cerebro de las Manos

Anthropic, con el lanzamiento de su beta pública de Managed Agents el 8 de abril, ha implementado una arquitectura que aborda el problema de raíz: separa cada agente en tres componentes que no confían entre sí. Estos son: el cerebro (Claude y el arnés que enruta sus decisiones), las manos (contenedores Linux desechables donde se ejecuta el código) y una sesión (un registro de eventos de solo añadir que reside fuera de ambos). Este desacoplamiento de instrucciones y ejecución es un patrón bien establecido en el software moderno, reminiscente de microservicios, funciones sin servidor y colas de mensajes.

La clave de la seguridad reside en la gestión de credenciales. Las credenciales nunca ingresan al sandbox. Anthropic almacena los tokens OAuth en una bóveda externa. Cuando el agente necesita llamar a una herramienta MCP, envía un token vinculado a la sesión a un proxy dedicado. Este proxy recupera las credenciales reales de la bóveda, realiza la llamada externa y devuelve el resultado. El agente nunca ve el token real. De manera similar, los tokens de Git se configuran en el remoto local al inicializar el sandbox, permitiendo operaciones de push y pull sin que el agente toque la credencial. Para los directores de seguridad, esto es crítico: un sandbox comprometido no rinde nada que un atacante pueda reutilizar. La exfiltración de un solo salto se elimina estructuralmente.

Curiosamente, esta ganancia de seguridad surgió como un efecto secundario de una mejora de rendimiento. Anthropic desacopló el cerebro de las manos para que la inferencia pudiera comenzar antes de que el contenedor arrancara. Esto resultó en una reducción de aproximadamente el 60% en el tiempo medio hasta el primer token. El diseño de confianza cero no solo es más seguro, sino también más rápido, refutando la objeción empresarial de que la seguridad siempre añade latencia.

Una tercera ventaja estructural es la durabilidad de la sesión. Un fallo de contenedor en el patrón monolítico significa una pérdida total de estado. En Managed Agents, el registro de la sesión persiste fuera tanto del cerebro como de las manos. Si el arnés falla, arranca uno nuevo, lee el registro de eventos y reanuda, sin pérdida de estado, lo que se traduce en una ganancia de productividad a largo plazo. Managed Agents también incluye trazado de sesión incorporado a través de la Consola de Claude. La transparencia y la capacidad de modelar el costo de compromiso del agente por hora de sesión frente al costo de los controles arquitectónicos son avances significativos.

Solución 2: Nvidia NemoClaw – Encapsulamiento y Monitoreo Riguroso

Nvidia, con su NemoClaw lanzado en vista previa temprana el 16 de marzo, adopta un enfoque diferente y más restrictivo. En lugar de separar el agente de su entorno de ejecución, envuelve al agente completo dentro de cuatro capas de seguridad apiladas y monitorea cada movimiento. Anthropic y Nvidia son los únicos dos proveedores que han lanzado públicamente arquitecturas de agente de confianza cero hasta la fecha, aunque otros están en desarrollo.

NemoClaw apila cinco capas de cumplimiento entre el agente y el host. La ejecución en sandbox utiliza

Landlock

seccomp

y aislamiento de espacios de nombres de red a nivel de kernel. La red saliente se basa en un modelo de denegación por defecto, forzando cada conexión externa a través de la aprobación explícita del operador mediante políticas basadas en YAML. El acceso se ejecuta con privilegios mínimos. Un enrutador de privacidad dirige las consultas sensibles a modelos Nemotron que se ejecutan localmente, reduciendo el costo de tokens y la fuga de datos a cero. La capa más relevante para los equipos de seguridad es la verificación de intenciones: el motor de políticas de OpenShell intercepta cada acción del agente antes de que toque el host. La compensación para las organizaciones que evalúan NemoClaw es clara: una mayor visibilidad en tiempo de ejecución conlleva un mayor costo de personal operativo.

El agente no es consciente de que está dentro de NemoClaw. Las acciones dentro de la política se ejecutan normalmente. Las acciones fuera de la política reciben una denegación configurable. La observabilidad es la capa más fuerte, con una interfaz de usuario de terminal en tiempo real que registra cada acción, cada solicitud de red y cada conexión bloqueada, proporcionando una auditoría completa. Sin embargo, el problema es el costo: la carga del operador escala linealmente con la actividad del agente. Cada nuevo punto final requiere aprobación manual, haciendo que la autonomía sea baja. Esta relación puede volverse costosa rápidamente en entornos de producción que ejecutan docenas de agentes.

Existe una brecha de durabilidad de la que nadie habla. El estado del agente persiste como archivos dentro del sandbox. Si el sandbox falla, el estado se pierde con él. No existe un mecanismo de recuperación de sesión externo, lo que significa que las tareas de agente de larga duración conllevan un riesgo de pérdida de datos que debe considerarse en la planificación del despliegue antes de la producción.

La Brecha de Proximidad de Credenciales: ¿Dónde Reside el Riesgo Real?

Ambas arquitecturas representan un avance real sobre el patrón monolítico predeterminado. Sin embargo, divergen en la pregunta más crucial para los equipos de seguridad: ¿qué tan cerca residen las credenciales del entorno de ejecución?

Anthropic: Elimina las credenciales del radio de explosión por completo. Si un atacante compromete el sandbox mediante inyección de
```
prompt
```
, obtiene un contenedor desechable sin tokens ni estado persistente. La exfiltración de credenciales requiere un ataque de dos saltos: influir en el razonamiento del cerebro y luego convencerlo de actuar a través de un contenedor que no contiene nada de valor para robar. La exfiltración de un solo salto se elimina estructuralmente.
Nvidia: Restringe el radio de explosión y monitorea cada acción dentro de él. Cuatro capas de seguridad limitan el movimiento lateral. La red de denegación por defecto bloquea las conexiones no autorizadas. Pero el agente y el código generado comparten el mismo sandbox. El enrutador de privacidad de Nvidia mantiene las credenciales de inferencia en el host, fuera del sandbox, pero los tokens de mensajería e integración (Telegram, Slack, Discord) se inyectan en el sandbox como variables de entorno en tiempo de ejecución. Las claves de API de inferencia se proxy a través del enrutador de privacidad y no se pasan directamente al sandbox. La exposición varía según el tipo de credencial. Las credenciales están protegidas por políticas, no eliminadas estructuralmente.

Esta distinción es de suma importancia para la inyección indirecta de

prompt

, donde un adversario incrusta instrucciones en contenido que el agente consulta como parte de un trabajo legítimo (por ejemplo, una página web envenenada o una respuesta de API manipulada). La capa de verificación de intenciones evalúa lo que el agente propone hacer, no el contenido de los datos devueltos por herramientas externas. Las instrucciones inyectadas entran en la cadena de razonamiento como contexto de confianza, y en NemoClaw, junto con la ejecución dentro del sandbox compartido. En la arquitectura de Anthropic, la inyección indirecta puede influir en el razonamiento, pero no puede alcanzar la bóveda de credenciales. Esta es la brecha más amplia entre los dos diseños.

“Los sistemas de IA deben heredar el nivel de confianza de los datos que procesan. Entrada no confiable, capacidades restringidas.”

Así lo afirmó David Brauchler, Director Técnico y Jefe de Seguridad de AI/ML en NCC Group, abogando por arquitecturas de agente segmentadas por confianza. Tanto Anthropic como Nvidia se mueven en esta dirección, pero ninguna llega completamente.

Auditoría de Arquitectura de Confianza Cero para Agentes de IA: Pasos de Mitigación Cruciales

La adopción generalizada de agentes de IA ha convertido la seguridad en un imperativo operacional. Para mitigar el riesgo, las organizaciones deben priorizar las siguientes acciones:

Audite cada agente desplegado en busca del patrón monolítico. Identifique cualquier agente que contenga tokens OAuth en su entorno de ejecución. Los datos de la CSA muestran que el 43% utiliza cuentas de servicio compartidas; estos son los primeros objetivos para la remediación.
Exija el aislamiento de credenciales en las RFP de despliegue de agentes. Especifique si el proveedor elimina las credenciales estructuralmente o las protege mediante políticas. Ambos enfoques reducen el riesgo, pero en diferentes grados y con diferentes modos de falla. Entienda la distinción.
Pruebe la recuperación de sesión antes de la producción. Detenga un sandbox a mitad de tarea y verifique que el estado persista. Si no lo hace, el trabajo de largo plazo conlleva un riesgo de pérdida de datos que se agrava con la duración de la tarea.
Establezca el personal para el modelo de observabilidad. El rastreo de la consola de Anthropic se integra con los flujos de trabajo de observabilidad existentes. La TUI de NemoClaw requiere un operador humano en el bucle. Las necesidades de personal son distintas.
Realice un seguimiento de las hojas de ruta de inyección indirecta de
prompt
. Ninguna de las arquitecturas resuelve completamente este vector. Anthropic limita el radio de explosión de una inyección exitosa. NemoClaw detecta acciones maliciosas propuestas, pero no datos maliciosos devueltos. Exija compromisos de hoja de ruta de los proveedores sobre esta brecha específica.

La confianza cero para los agentes de IA dejó de ser un tema de investigación en el momento en que se lanzaron dos arquitecturas. El patrón monolítico predeterminado es una responsabilidad. La brecha de 65 puntos entre la velocidad de despliegue y la aprobación de seguridad es donde comenzará la próxima generación de violaciones de datos. Es hora de actuar con la urgencia que exige la situación.

Confianza Cero para Agentes de IA: Deconstruyendo el Radio de Explosión de Credenciales

Puntos Clave

La Crisis de Confianza en la Era de los Agentes de IA

El Problema del Agente Monolítico: Un Riesgo de Seguridad Inaceptable

Solución 1: Anthropic Managed Agents – Separando el Cerebro de las Manos

Solución 2: Nvidia NemoClaw – Encapsulamiento y Monitoreo Riguroso

La Brecha de Proximidad de Credenciales: ¿Dónde Reside el Riesgo Real?

Auditoría de Arquitectura de Confianza Cero para Agentes de IA: Pasos de Mitigación Cruciales

Confianza Cero para Agentes de IA: Deconstruyendo el Radio de Explosión de Credenciales

Puntos Clave

La Crisis de Confianza en la Era de los Agentes de IA

El Problema del Agente Monolítico: Un Riesgo de Seguridad Inaceptable

Solución 1: Anthropic Managed Agents – Separando el Cerebro de las Manos

Solución 2: Nvidia NemoClaw – Encapsulamiento y Monitoreo Riguroso

La Brecha de Proximidad de Credenciales: ¿Dónde Reside el Riesgo Real?

Auditoría de Arquitectura de Confianza Cero para Agentes de IA: Pasos de Mitigación Cruciales

Articulos Recomendados

Starlink en la Mira: Musk Alega Mal Uso por Drones Militares, Generando Preocupaciones de Seguridad de Doble Uso

Las fuerzas del orden de EE. UU. advierten sobre "extremismo anti-tecnológico" ante el crecimiento del odio hacia la IA

Fallo Crítico: Miles de Pasaportes y Selfies de Solicitantes de Visado del Reino Unido Expuestos en Línea