La próxima evolución del Agents SDK

(openai.com)

7 puntos por GN⁺ 14 일 전 | Aún no hay comentarios. | Compartir por WhatsApp

OpenAI actualizó ampliamente Agents SDK, proporcionando una infraestructura estandarizada para que los agentes realicen inspección de archivos, ejecución de comandos, edición de código y trabajos de larga duración en un entorno de sandbox controlado
El nuevo harness integra memoria configurable, orquestación con reconocimiento del sandbox, herramientas de sistema de archivos estilo Codex y primitivas clave de sistemas de agentes frontier como MCP, skills, AGENTS.md, shell y apply patch
Con soporte nativo para ejecución en sandbox, admite por defecto diversos proveedores de sandbox como Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop y Vercel, o permite conectar un sandbox propio
Con una arquitectura separada entre harness y cómputo, asegura defensa contra prompt injection, ejecución durable basada en snapshots y paralelización en múltiples contenedores para seguridad y escalabilidad
Está disponible de forma general (GA) para todos los clientes con cobro estándar basado en API por tokens y uso de herramientas, y más adelante se agregarán soporte para TypeScript y funciones de code mode y subagents

Limitaciones de los sistemas de agentes existentes

Para que los desarrolladores construyan agentes útiles, no basta con los mejores modelos: también necesitan sistemas que soporten inspección de archivos, ejecución de comandos, escritura de código y mantenimiento de tareas de múltiples pasos
Trade-offs de los enfoques existentes
- Los frameworks independientes del modelo son flexibles, pero no aprovechan por completo las capacidades de los modelos frontier
- Los SDK de proveedores de modelos están más cerca del modelo, pero a menudo ofrecen poca visibilidad sobre el harness
- Las API de agentes administrados simplifican el despliegue, pero limitan dónde se ejecutan los agentes y cómo acceden a datos sensibles

Con este lanzamiento, el harness de Agents SDK ofrece capacidades más potentes para agentes que trabajan con documentos, archivos y sistemas
Principales primitivas recién integradas
- Uso de herramientas mediante MCP
- Progressive disclosure mediante skills
- Instrucciones personalizadas mediante AGENTS.md
- Ejecución de código mediante la herramienta shell
- Edición de archivos mediante la herramienta apply patch
Como el harness seguirá integrando nuevos patrones agénticos y primitivas con el tiempo, los desarrolladores podrán concentrarse en la lógica específica del dominio en lugar de actualizar infraestructura central
El harness mejora la estabilidad y el rendimiento alineando la ejecución con la forma en que los modelos frontier logran su mejor desempeño, especialmente en tareas de larga duración o trabajos complejos que requieren coordinación entre diversas herramientas y sistemas
Está diseñado para soportar los requisitos únicos de cada producto, por lo que el uso de herramientas, la memoria y el entorno de sandbox se pueden ajustar con flexibilidad al stack existente del desarrollador

El Agents SDK actualizado admite de forma nativa la ejecución en sandbox, permitiendo que los agentes corran en un entorno computacional controlado con los archivos, herramientas y dependencias necesarios para cada tarea
Muchos agentes útiles necesitan un workspace que permita leer y escribir archivos, instalar dependencias, ejecutar código y usar herramientas de manera segura, y el soporte nativo de sandbox lo ofrece sin necesidad de configurarlo por separado
Se puede usar un sandbox propio o aprovechar el soporte integrado para Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop y Vercel
Se introdujo una abstracción de Manifest para hacer que los entornos sean portables entre múltiples proveedores
- Permite montar archivos locales y definir directorios de salida
- Soporta importar datos desde proveedores de almacenamiento como AWS S3, Google Cloud Storage, Azure Blob Storage y Cloudflare R2
Proporciona a los desarrolladores una forma consistente de configurar entornos desde prototipos locales hasta despliegues en producción
Ofrece al modelo un workspace predecible respecto a dónde están las entradas, dónde deben ir las salidas y cómo organizar el trabajo durante tareas de larga duración

Los sistemas de agentes deben diseñarse asumiendo prompt injection e intentos de filtración de datos, y la separación entre harness y cómputo ayuda a aislar las credenciales del entorno donde se ejecuta el código generado por el modelo
Soporte para ejecución durable
- Si el estado del agente se externaliza, la pérdida de un contenedor de sandbox no implica la pérdida de la ejecución
- Con snapshotting y rehidratación integrados, si el entorno original falla o expira, es posible restaurar el estado desde el último checkpoint en un nuevo contenedor y continuar la ejecución
Mejora de la escalabilidad
- La ejecución del agente puede usar uno o varios sandboxes
- El sandbox puede invocarse solo cuando sea necesario, y los subagentes pueden enrutarse a entornos aislados
- La paralelización en múltiples contenedores permite ejecuciones más rápidas

Según Rachael Burns, Staff Engineer & AI Tech Lead de Oscar Health, el Agents SDK actualizado permitió llevar a nivel de producción la automatización de workflows de registros clínicos que no podían manejarse con suficiente confiabilidad con el enfoque anterior
La diferencia clave no está en una simple extracción de metadatos, sino en entender con precisión cada encounter boundary dentro de registros largos y complejos
Como resultado, se puede comprender con mayor rapidez el contexto de cada visita del paciente, contribuyendo a mejorar la atención y la experiencia del paciente

Las nuevas funciones de Agents SDK están en disponibilidad general (GA) para todos los clientes a través de la API
Se aplica la política estándar de precios de la API (cobro basado en tokens y uso de herramientas)

OpenAI seguirá desarrollando Agents SDK para ayudar a llevar agentes más potentes a producción con menos infraestructura personalizada, manteniendo la flexibilidad y el control del desarrollador
El nuevo harness y las funciones de sandbox se lanzan primero en Python, y el soporte para TypeScript llegará en una futura versión
Ya se está trabajando para agregar code mode y subagents tanto en Python como en TypeScript
También se ampliará la integración del ecosistema de agentes con más proveedores de sandbox, integraciones y formas de conectarse con herramientas y sistemas que los desarrolladores ya usan