Todo lo anunciado en Code w/ Claude

xguru · 2026-05-14T11:50:02+09:00

La conferencia para desarrolladores de Anthropic: se realiza en línea y presencialmente, y los eventos presenciales se celebran en San Francisco el 5/6, Londres el 5/19 y Tokio el 6/10. En el evento de San Francisco se publicaron videos de 19 sesiones Claude está evolucionando hacia la ejecución de tareas más largas, memoria de largo plazo, uso de más herramientas y mejor verificación El cambio clave es que la ejecución iterativa, la selección de herramientas, la verificación, la memoria y la gestión del contexto, que antes los desarrolladores construían por su cuenta, están pasando a integrarse dentro de los productos y la plataforma de Claude La diferenciación de productos y organizaciones se está desplazando de cómo se invoca al modelo a qué herramientas, datos, permisos y contexto se le abren al modelo Más que la escritura de código en sí, la verificación, la seguridad, la gestión de permisos, la observabilidad, los sistemas de evaluación y la operación organizacional están creciendo como los nuevos cuellos de botella En adelante, las áreas importantes serán herramientas personalizadas, memoria confiable, evaluación, límites de seguridad, context engineering y agent experience Sesión 1 - Keynote El enfoque estuvo en mejoras de producto para que Claude Code y Claude Platform funcionen mejor para los desarrolladores La mayoría de los usuarios no usan directamente la API de Claude ni la terminal, sino que usan Claude dentro de productos creados por desarrolladores El uso de la API de Claude Platform aumentó casi 17 veces interanualmente El desarrollador promedio de Claude Code ejecuta Claude 20 horas por semana El límite de uso de 5 horas de Claude Code se duplicó en los planes Pro, Max, Team y seat-based Enterprise El límite de la API de Claude Opus también aumentó considerablemente Se busca aprovechar la capacidad del centro de datos Colossus One de SpaceX para ofrecer más recursos de cómputo a desarrolladores individuales y equipos pequeños Opus 4.7 mejoró el rendimiento de agentes de programación, la calidad de planificación y la tasa de resolución de tareas reales de ingeniería en Amp, Rakuten e Intuit El Claude del futuro avanza hacia mejor criterio, mayor contexto y memoria, y colaboración entre múltiples agentes Sesión 2 - What's new in Claude Code Las nuevas funciones de Claude Code se agrupan en dos ejes: mejor usabilidad para desarrolladores y más autonomía Remote Control permite continuar en la web o en móvil una sesión iniciada desde la terminal Full screen terminal UI usa scrollback virtual para ofrecer renderizado sin parpadeos y una pantalla de invocación de herramientas en la que se puede hacer clic La GUI de Claude Code cambió para permitir administrar múltiples sesiones con fijado, filtrado, agrupación y pantalla dividida En plan view, diff view y files view se pueden dejar comentarios por línea, y Claude puede recopilarlos y procesarlos después Auto Mode clasifica si una invocación de herramienta es destructiva o si parece prompt injection, y si es segura la ejecuta sin pedir confirmación de permisos Worktree permite que varias sesiones de Claude trabajen en paralelo, cada una con su propia rama aislada y copia de archivos Auto memory hace que Claude gestione memory.md y archivos relacionados por proyecto, y reutilice en sesiones futuras comandos de build, pistas de depuración y preferencias del proyecto Routines y /loop permiten ejecutar automáticamente sesiones de Claude Code mediante cron, webhooks de GitHub o disparadores de API Sesión 3 - Memory and dreaming for self-learning agents Memory se presenta como un componente base para la siguiente etapa después de MCP, Claude Code, Agent SDK y Skills La memoria de Claude Managed Agents está estructurada como un sistema de archivos, de modo que Claude puede organizarla y actualizarla directamente con Bash y Grep Opus 4.7 juzga mejor qué guardar, cómo dividir los archivos y cómo mantener la estructura de la memoria Se puede separar entre memoria organizacional de solo lectura y memoria de trabajo de lectura y escritura para que varios agentes lean y escriban sobre el mismo repositorio de memoria Para evitar sobreescrituras cuando cientos de agentes modifican la memoria al mismo tiempo, se usa control de concurrencia optimista basado en hash de contenido Se registran historial de cambios, autoría, sesión y momento, para gestionar la memoria como auditable en entornos empresariales Dreaming analiza de forma asíncrona sesiones recientes de agentes y transcripts para detectar errores repetidos, estrategias exitosas, memoria duplicada y memoria obsoleta, y así ordenarla Harvey aplicó Dreaming a benchmarks legales y elevó 6 veces la tasa de finalización de tareas en un escenario jurídico En una demo de SRE, Dreaming encontró un patrón de reintentos cada 60 segundos que varios agentes no detectaban por separado y lo reflejó en la memoria El objetivo es una estructura de aprendizaje continuo en la que el trabajo de los agentes de hoy mejore automáticamente a los agentes de mañana Sesión 4 - Caching, harnesses, and advisors: Building on Claude at GitHub scale A la escala de GitHub Copilot, el prompt caching se vuelve un medio clave para reducir costos y latencia La tasa objetivo de aciertos de caché es de 94-96%, y un nivel de 70% se considera una señal de problemas en el ensamblado de prompts o en el diseño del caché La primera parte del system prompt y de la lista de herramientas debe mantenerse lo más estática posible Si al inicio se incluyen UUID, marcas de tiempo o carga dinámica de herramientas, el caché se rompe fácilmente Incluso en un harness que pasa entre varios modelos, debe mantenerse compatibilidad con el caché para que las llamadas a Opus reutilicen cachés previos GitHub pone en marcha nuevos modelos en el orden de benchmarks offline, uso interno, pruebas A/B, evaluación online (eval) y optimización posterior al lanzamiento La estrategia Advisor consiste en que un modelo de ejecución barato haga la mayor parte del trabajo, y que Opus solo sea llamado como asesor cuando se necesita un juicio importante Más que el modelo en sí, la capa operativa que agrupa prompts, herramientas, caché, selección de modelo, evaluación y feedback online determina la calidad y el costo Sesión 5 - The expanding toolkit El código auxiliar que el año pasado se construía manualmente ahora está pasando a incluirse dentro del modelo y la API En el uso de herramientas, disminuye el valor de los routers manuales o los decoradores de reintento Claude puede encontrar herramientas por sí mismo, detectar y recuperarse de llamadas fallidas, y luego volver a invocarlas En la guía de herramientas conviene incluir no solo las entradas, sino también el esquema de salida Si Claude conoce de antemano la estructura de salida, puede aprovechar mejor los resultados sin llamadas de ida y vuelta innecesarias Los hooks de herramienta pre/post de Claude Code pueden usarse para bloquear ciertas invocaciones o registrar y analizar resultados automáticamente Con contexto de 1 millón de tokens, compresión del lado del servidor y edición de contexto, se simplifica la gestión del contexto en tareas largas Capturas de pantalla antiguas, resultados de búsqueda y resultados de lectura de archivos pueden eliminarse periódicamente, y aun así conservar los juicios que produjeron Opus 4.7 devuelve coordenadas de píxeles 1:1 a partir de capturas de pantalla en resolución original de hasta 1440p, lo que reduce la carga de corrección de coordenadas en automatización de pantalla El código que compensa limitaciones del modelo tiene una vida corta, mientras que el código que conecta herramientas, datos, autenticación y contexto de dominio que Claude no puede ver permanece por más tiempo Sesión 6 - How to get to production faster with Claude Managed Agents Claude Managed Agents agrupa en una plataforma la gestión de contexto, gestión de credenciales, seguridad, control de acceso, revisión humana y observabilidad necesarias para agentes operativos de larga ejecución La configuración básica consiste en agent configuration, environment y session Con los session events se pueden ver eventos de usuario, eventos del agente, eventos de sesión y eventos de tramo La Console reúne en una sola pantalla la configuración, el entorno, el trace de ejecución completo, cuellos de botella y acciones recomendadas outcomes es una función que hace que Claude repita hasta cumplir los criterios de finalización y de evaluación definidos de antemano La coordinación de varios agentes, la memoria y Dreaming también se tratan juntos como funciones avanzadas En la demo del dashboard, el agent encontró paralelización, fast mode y optimización de prompts para reducir el tiempo de renderizado de unos 37 segundos a 10 segundos Un agente operativo no solo necesita un bucle de llamadas al modelo, sino también trazabilidad, análisis de cuellos de botella, permisos y validación Sesión 7 - A conversation with Dario Amodei & Daniela Amodei Anthropic se quedó corto de recursos de cómputo por un crecimiento de uso e ingresos más rápido de lo esperado Busca asegurar capacidad de cómputo adicional para ofrecer más a desarrolladores y usuarios Los desarrolladores son tratados como usuarios clave de Claude y como el grupo que primero muestra cómo la IA se expande por toda la economía El siguiente cambio en Claude Code pasa de la productividad personal a la productividad de equipos y organizaciones Cuanto más rápido se escribe código, más se vuelven nuevos cuellos de botella la seguridad, validación, confiabilidad y mantenibilidad Como las capacidades de los modelos cambian rápido, productos que hace unos meses eran imposibles de pronto se vuelven viables El mercado de API seguirá siendo importante En adelante, Claude irá más allá de ayudar al trabajo de una sola persona y avanzará hacia potenciar el trabajo de varias personas y varios agentes en toda la organización Sesión 8 - Live coding session with Boris Cherny and Jarred Sumner Robobun de Bun reproduce automáticamente issues de GitHub y crea PR con pruebas incluidas Toma como criterio para enviar el PR una condición en la que falla en la versión anterior y pasa en la rama con la corrección CLAUDE.md se convierte en un documento operativo del agente que incluye comandos de build, comandos de test, ubicación de las pruebas, patrones de fallas previas, estructura de carpetas y cómo leer logs de CI Usan juntos CodeRabbit, Claude Code Review y Robobun para automatizar el estilo, el cumplimiento de CLAUDE.md y la revisión de condiciones límite fuera del diff Claude Code y Opus 4.7 encajan bien en trabajos que elevan el rendimiento de forma gradual cuando están claros el objetivo, la forma de medir y la iteración de validación El cuello de botella se mueve de escribir código a planificar y validar Los PR creados por agentes no tienen que verse como entregables que necesariamente deban fusionarse, sino como propuestas revisables Aunque aumenten los PR de agentes, el criterio humano para hacer merge no baja y hasta puede volverse más exigente Sesión 9 - Building with Claude Managed Agents and Asana AI teammates Los AI teammates de Asana apuntan a agentes que trabajen dentro de la empresa como si fueran compañeros reales Los agentes se convierten en actors para gestionar aprobaciones, workflows y tareas de múltiples pasos junto con personas En muchas empresas, el uso de agentes sigue limitado a un flujo de usuario único donde una persona recibe el resultado y se lo pasa a la siguiente Asana busca un flujo de trabajo colaborativo donde varias personas interactúen con el mismo agente y se acumulen conocimiento y memoria El Asana work graph conecta objetivos, portafolios, proyectos, tareas, aprobaciones y decisiones pasadas para usarlos como contexto del agente El AI teammate entra al sistema como un colega humano, con configuración compartida, control de acceso basado en roles y auditabilidad Claude Managed Agents maneja tareas de varios pasos como la redacción de briefs de campaña y la generación de mockups de landing pages HTML Asana se enfoca en la interfaz humana, el contexto empresarial, la seguridad y la auditabilidad, mientras que Claude Managed Agents se encarga de iteraciones de validación, graders, outcomes y ejecución de múltiples agentes Se ofrecen más de 21 AI teammates preconstruidos para tareas de PMO, marketing, TI, RR. HH. e I+D El feedback queda en la memoria del agente para que el siguiente usuario no vuelva a pasar por el mismo error Sesión 10 - Running an AI-native engineering org En una organización de ingeniería AI-native, el throughput de escritura de código deja de ser el cuello de botella más caro Validación, revisión, seguridad, mantenimiento y coordinación entre funciones crecen como nuevos cuellos de botella Más que una hoja de ruta de 6 meses o documentos de diseño antes de cada tarea, al equipo de Claude Code le funciona mejor un flujo de planear en el momento adecuado y prototipar rápido Los debates técnicos cambian de largas discusiones frente al pizarrón a crear varios PR de implementación para comparar el impacto real y la forma de la API Como generar código se volvió fácil, las pruebas, la automatización y la validación más temprana se vuelven más importantes Más importante que preguntar “quién escribió este código” es distinguir la causa de una regresión, si hace falta una respuesta experta y con qué fin se necesita asegurar el contexto El equipo de Claude Code deja en manos de Claude el estilo, lint, feedback de PR, algunas correcciones de bugs y la adición de pruebas La revisión legal, el código sensible de seguridad, los límites de confianza y el criterio de producto siguen quedando en manos de expertos humanos En contratación, se valora más a constructores creativos con criterio de producto y a quienes tienen profunda experiencia en sistemas que el simple throughput Las métricas de éxito pueden verse en menor tiempo de onboarding, ciclos de PR más cortos y más commits con ayuda de Claude Sesión 11 - Building AI-native: Inside the stacks powering Cognition, Gamma, and Harvey Gamma refleja rápido en el producto mejoras en llamadas a herramientas y coordinación de agentes para reforzar flujos de edición basados en agentes Gamma usa el conector MCP no solo como función de integración, sino también como punto de entrada para adquisición de clientes y flujos de trabajo Cognition ha reducido parte de sus sistemas propios de planificación y memoria a medida que los modelos mejoran en edición de código, uso del sistema de archivos y planes de ejecución largos Harvey rediseña la estructura del producto en cada punto de inflexión de los foundation models, modelos de razonamiento y agentes de código Las capacidades actuales de la plataforma de Harvey habrían sido difíciles de lograr sin una arquitectura agent-native Los productos AI-native deben asumir que una arquitectura existente puede volverse obsoleta en 6 a 12 meses Registro, observabilidad, reproducción y evaluación se vuelven mecanismos esenciales para responder a cambios rápidos de arquitectura En sectores sensibles como el legal, se necesitan límites de datos sólidos entre datos públicos, datos privados, memoria y flujos de agentes Más que una arquitectura ajustada a las limitaciones de un modelo específico, importa una que pueda absorber rápido el siguiente salto de capacidades Sesión 12 - Architecting for model step-changes: A fireside with Vercel's Guillermo Rauch Vercel ve la infraestructura agéntica como la dirección clave La nube puede expandirse hacia una infraestructura que se recupere sola, se optimice y cambie su propia configuración AI Gateway se trata como un CDN para tokens Se convierte en una capa que maneja múltiples proveedores y modelos, y se encarga del enrutamiento, la tolerancia a fallas y el control de costos Los tokens de Opus representan una proporción de gasto mucho mayor que su proporción de uso, así que al integrar modelos de alta inteligencia en un producto hay que revisar claramente la estructura de costos Tras adoptar Opus 4.5, V0 pudo simplificar la revisión gramatical, la autocorrección y algunos procesos que antes ajustaban el modelo previo El salto en capacidad del modelo no solo lleva a agregar funciones nuevas, sino también a eliminar código de ajuste existente Después de ampliar el uso de Opus en V0, el gasto en créditos del producto se duplicó En adelante, además del desarrollo basado en CLI y UI, podrían crecer más los agentes asincrónicos con menor supervisión humana Sesión 13 - The thinking lever La computación en tiempo de prueba (test-time compute) es el eje con el que Claude resuelve problemas difíciles usando más tokens y más tiempo durante el razonamiento Incluso con el mismo Opus 4.7, la calidad de la simulación de tráfico cambia mucho según el effort low, high o max Cuanto más tiempo y tokens se usan, más realistas se vuelven los gráficos, el flujo del tráfico y el movimiento de los vehículos Los tokens que usa Claude se dividen en tokens de pensamiento, tokens de llamada de herramientas y tokens de texto Los tokens de pensamiento se usan para razonamiento interno, los tokens de llamada de herramientas para interactuar con el mundo externo, y los tokens de texto para comunicarse con el usuario effort es un control que expresa el equilibrio entre tiempo, costo y calidad Task Budgets permite fijar límites superiores de tokens, tiempo y costo que Claude puede usar en una tarea específica El pensamiento adaptativo (adaptive thinking) permite que Claude elija libremente el orden de pensar, usar herramientas y responder al usuario cuando sea necesario En coding y en casos de uso agentic, extra high se considera un buen valor predeterminado Para clasificación o extracción simple a gran escala convienen más los modelos pequeños, y para terminar rápido tareas que requieren inteligencia puede ser mejor un modelo grande con effort bajo Sesión 14 - How Datadog built a universal machine tool for Claude Code Aproximadamente el 90% de los ingenieros de Datadog usa herramientas de codificación con IA en código de producción De ellos, al menos 2/3 usa Claude Code El alcance del uso de herramientas de codificación con IA se está ampliando desde funciones individuales, pruebas y código de unión hacia trabajo a nivel de sistema El cuello de botella se está moviendo de escribir código a la iteración de feedback y la validación en producción En el experimento Helix, Claude Code pudo crear en pocos días un servicio de streaming similar a Kafka Para llevarlo a un entorno de producción se necesitan shadowing, escalones de validación y kilometraje del sistema Tempor hace que los agentes no improvisen herramientas sobre la marcha, sino que primero construyan un plano con estado, transiciones, efectos e invariantes Tablas de transición, documentos de política, efectos tipados, validadores y pruebas de propiedades hacen que el software creado por agentes pueda inspeccionarse Para dar libertad al agente, hay que hacer que los invariantes y los procedimientos de validación del sistema de producción sean legibles por máquina Sesión 15 - Building with Claude on Google Cloud La forma más sencilla de configurar Claude Code en Google Cloud es usando un asistente de configuración basado en Application Default Credentials El asistente de configuración puede detectar y fijar project, region y los model disponibles Al usar Claude model en Google Cloud, se puede aprovechar facturación basada en tokens, provisioned throughput, menor carga por rotación de API keys, aplicación de políticas del project, mantenimiento de datos dentro del project, y endpoints regionales/globales La demo se desarrolló como un flujo en el que cinco roles —PM, UI/UX designer, software engineer, security engineer y data/growth marketer— construyen de principio a fin una app de feedback El PM carga un wireframe dibujado a mano en Claude Code y crea rápidamente un prototipo En la etapa de UI/UX se usa plan mode para que Claude proponga primero un plan antes de implementar La Google Cloud developer knowledge API y el MCP server conectan documentación actualizada y guías de arquitectura a Claude Code Google Cloud Skills se usa para ayudar a implementar bloques individuales, como desplegar una API en Cloud Run o conectar Cloud Run con Firestore Se usan sub-agents para avanzar en paralelo con la implementación de la API, el pipeline de ingesta y el dashboard El security review prompt revisa problemas de OWASP o permisos de service account, corrige los hallazgos y luego despliega en Cloud Run Sesión 16 - Getting more out of the Claude Platform Las prioridades para optimizar agentes en producción son prompt caching, context engineering y la estrategia Advisor Prompt caching reduce el costo de los tokens de entrada, disminuye el tiempo hasta el primer token y baja la carga del límite de uso de los tokens cacheados Una tasa de acierto de caché en el rango del 90% se maneja como objetivo La estabilidad del prompt inicial, la ubicación de las definiciones de herramientas y el lugar donde se insertan valores dinámicos afectan la caché La tool search tool carga solo las definiciones de herramientas necesarias en el momento oportuno y ahorra contexto Si se incluyen todas las herramientas desde el inicio, la carga sobre el contexto y la caché aumenta mucho La llamada programática de herramientas (programmatic tool calling) selecciona solo los fragmentos necesarios de muchos resultados de herramientas en lugar de meterlos completos en el contexto La compactación (compaction) reduce conversaciones antiguas y resultados de herramientas para poder continuar tareas largas La estrategia Advisor hace que Sonnet o Haiku realicen la mayor parte del trabajo, y solo llama a Opus como asesor cuando hace falta un juicio importante La clave no es llamar más veces al modelo, sino diseñar con qué contexto, herramientas y estructura de caché va a trabajar el modelo Sesión 17 - Evaluating and improving Replit Agent at scale Los usuarios de Replit Agent esperan una app funcional a partir de lenguaje natural, sin especificar framework ni pruebas A diferencia de los benchmarks generales de coding, es difícil medir la calidad de Replit Agent solo viendo si un parche pasa las pruebas La evaluación debe revisar si la app funciona como la pidió el usuario Replit usa tanto evaluación offline como evaluación online La evaluación offline actúa como puerta de entrada antes de un nuevo release del agente, y la evaluación online se usa para responder rápido después del uso real VibeBench es un benchmark público en el que 20 PRD reales se usan como entrada para crear una app desde un repositorio vacío, y un evaluador automático prueba la app en el navegador A la mayoría de los modelos les cuesta más volver a ampliar el código que ellos mismos crearon Hay que poner etapas de prueba y validación entre funciones para reducir el riesgo de seguir construyendo sobre una base inestable Telescope es un sistema interno que agrupa trazas de ejecución en producción según significado para encontrar fallas de cola larga, clasificar problemas, hacer que el agente cree PR y validar con VibeBench o pruebas A/B La evaluación deja de ser una lista final de verificación de lanzamiento y se convierte en un motor para mejorar al agente todos los días Sesión 18 - The capability curve Los usuarios de Claude Code despliegan más rápido y con mayor confianza que el año pasado En una votación durante la presentación, muchos asistentes respondieron que perciben con Claude una mejora de velocidad de 10x, 5x o 2x En SWE-bench Verified, Sonnet 3.7 registró alrededor de 62% y Opus 4.7 87% Opus 4.7 tiene una probabilidad más de 3 veces mayor de resolver con éxito PR difíciles en los que Sonnet 3.7 fallaba En una demo para recrear Claude.ai con el mismo prompt, los modelos anteriores produjeron una UI de chat genérica y errores, mientras que Opus 4.7 implementó los colores de Claude, respuestas de API, historial de chat, gráficos inline y dark mode Las áreas mejoradas son planificación, recuperación ante errores y mantenimiento de la atención durante ejecuciones largas El nuevo modelo primero planifica, retrocede si falla y mantiene mejor el prompt del sistema y los objetivos incluso en contextos largos Hay que crear evaluaciones con una distribución más cercana al producto para ver mejoras reales A medida que el modelo mejora, las evaluaciones existentes se saturan fácilmente, así que las evaluaciones también deben volverse cada vez más difíciles Cuando aparece un nuevo frontier model, conviene volver a probar reduciendo los procedimientos de calibración y los prompts existentes Sesión 19 - Giving coding agents their own computers: How Cursor built cloud agents Cursor considera que el cuello de botella no está tanto en la inteligencia del modelo, sino en que las personas no logran dar al modelo suficientes herramientas, contexto y objetivos amplios Igual que se hace onboarding a un desarrollador humano, un agente también debe recibir una computadora, un entorno de desarrollo y documentación El onboarding agent de Cursor explora el repositorio y entiende cómo ejecutar la app, los servicios, las variables de entorno y los permisos AnyDev CLI es una herramienta que ayuda a que el agente inicie servicios, espere a que estén listos, revise su estado y hasta gestione la creación de cuentas de prueba o el inicio de sesión Cuanto mejor es el entorno de desarrollo para agentes, más cloud agents ejecutan los desarrolladores y más grandes son las tareas que les asignan El principio básico de la autonomía es darle al agente ojos, herramientas y buen contexto El agente debe poder ver, como una persona, el estado de la app, las conversaciones de otros agentes y el estado de los servicios Cursor ve computer use como un elemento fundamental importante después de la codificación Claude 4.7 permite que el agent grabe por sí mismo demos end-to-end para verificar funciones y que las personas entiendan rápidamente el resultado antes del code review Cursor trata la agent experience como un objetivo de diseño aparte y, si el agente se encuentra con flujos molestos, rotos o confusos, hace que los registre como issues de work on the factory El objetivo final no es que una persona lo lleve manualmente de la A a la D, sino construir un sistema capaz de resolver de la A a la Z

(claude.com)

22 puntos por xguru 2026-05-14 | Aún no hay comentarios. | Compartir por WhatsApp

La conferencia para desarrolladores de Anthropic: se realiza en línea y presencialmente, y los eventos presenciales se celebran en San Francisco el 5/6, Londres el 5/19 y Tokio el 6/10. En el evento de San Francisco se publicaron videos de 19 sesiones
Claude está evolucionando hacia la ejecución de tareas más largas, memoria de largo plazo, uso de más herramientas y mejor verificación
El cambio clave es que la ejecución iterativa, la selección de herramientas, la verificación, la memoria y la gestión del contexto, que antes los desarrolladores construían por su cuenta, están pasando a integrarse dentro de los productos y la plataforma de Claude
La diferenciación de productos y organizaciones se está desplazando de cómo se invoca al modelo a qué herramientas, datos, permisos y contexto se le abren al modelo
Más que la escritura de código en sí, la verificación, la seguridad, la gestión de permisos, la observabilidad, los sistemas de evaluación y la operación organizacional están creciendo como los nuevos cuellos de botella
En adelante, las áreas importantes serán herramientas personalizadas, memoria confiable, evaluación, límites de seguridad, context engineering y agent experience

Sesión 1 - Keynote

El enfoque estuvo en mejoras de producto para que Claude Code y Claude Platform funcionen mejor para los desarrolladores
La mayoría de los usuarios no usan directamente la API de Claude ni la terminal, sino que usan Claude dentro de productos creados por desarrolladores
El uso de la API de Claude Platform aumentó casi 17 veces interanualmente
El desarrollador promedio de Claude Code ejecuta Claude 20 horas por semana
El límite de uso de 5 horas de Claude Code se duplicó en los planes Pro, Max, Team y seat-based Enterprise
El límite de la API de Claude Opus también aumentó considerablemente
Se busca aprovechar la capacidad del centro de datos Colossus One de SpaceX para ofrecer más recursos de cómputo a desarrolladores individuales y equipos pequeños
Opus 4.7 mejoró el rendimiento de agentes de programación, la calidad de planificación y la tasa de resolución de tareas reales de ingeniería en Amp, Rakuten e Intuit
El Claude del futuro avanza hacia mejor criterio, mayor contexto y memoria, y colaboración entre múltiples agentes

Sesión 2 - What's new in Claude Code

Las nuevas funciones de Claude Code se agrupan en dos ejes: mejor usabilidad para desarrolladores y más autonomía
Remote Control permite continuar en la web o en móvil una sesión iniciada desde la terminal
Full screen terminal UI usa scrollback virtual para ofrecer renderizado sin parpadeos y una pantalla de invocación de herramientas en la que se puede hacer clic
La GUI de Claude Code cambió para permitir administrar múltiples sesiones con fijado, filtrado, agrupación y pantalla dividida
En plan view, diff view y files view se pueden dejar comentarios por línea, y Claude puede recopilarlos y procesarlos después
Auto Mode clasifica si una invocación de herramienta es destructiva o si parece prompt injection, y si es segura la ejecuta sin pedir confirmación de permisos
Worktree permite que varias sesiones de Claude trabajen en paralelo, cada una con su propia rama aislada y copia de archivos
Auto memory hace que Claude gestione memory.md y archivos relacionados por proyecto, y reutilice en sesiones futuras comandos de build, pistas de depuración y preferencias del proyecto
Routines y /loop permiten ejecutar automáticamente sesiones de Claude Code mediante cron, webhooks de GitHub o disparadores de API

Sesión 3 - Memory and dreaming for self-learning agents

Memory se presenta como un componente base para la siguiente etapa después de MCP, Claude Code, Agent SDK y Skills
La memoria de Claude Managed Agents está estructurada como un sistema de archivos, de modo que Claude puede organizarla y actualizarla directamente con Bash y Grep
Opus 4.7 juzga mejor qué guardar, cómo dividir los archivos y cómo mantener la estructura de la memoria
Se puede separar entre memoria organizacional de solo lectura y memoria de trabajo de lectura y escritura para que varios agentes lean y escriban sobre el mismo repositorio de memoria
Para evitar sobreescrituras cuando cientos de agentes modifican la memoria al mismo tiempo, se usa control de concurrencia optimista basado en hash de contenido
Se registran historial de cambios, autoría, sesión y momento, para gestionar la memoria como auditable en entornos empresariales
Dreaming analiza de forma asíncrona sesiones recientes de agentes y transcripts para detectar errores repetidos, estrategias exitosas, memoria duplicada y memoria obsoleta, y así ordenarla
Harvey aplicó Dreaming a benchmarks legales y elevó 6 veces la tasa de finalización de tareas en un escenario jurídico
En una demo de SRE, Dreaming encontró un patrón de reintentos cada 60 segundos que varios agentes no detectaban por separado y lo reflejó en la memoria
El objetivo es una estructura de aprendizaje continuo en la que el trabajo de los agentes de hoy mejore automáticamente a los agentes de mañana

Sesión 4 - Caching, harnesses, and advisors: Building on Claude at GitHub scale

A la escala de GitHub Copilot, el prompt caching se vuelve un medio clave para reducir costos y latencia
La tasa objetivo de aciertos de caché es de 94-96%, y un nivel de 70% se considera una señal de problemas en el ensamblado de prompts o en el diseño del caché
La primera parte del system prompt y de la lista de herramientas debe mantenerse lo más estática posible
Si al inicio se incluyen UUID, marcas de tiempo o carga dinámica de herramientas, el caché se rompe fácilmente
Incluso en un harness que pasa entre varios modelos, debe mantenerse compatibilidad con el caché para que las llamadas a Opus reutilicen cachés previos
GitHub pone en marcha nuevos modelos en el orden de benchmarks offline, uso interno, pruebas A/B, evaluación online (eval) y optimización posterior al lanzamiento
La estrategia Advisor consiste en que un modelo de ejecución barato haga la mayor parte del trabajo, y que Opus solo sea llamado como asesor cuando se necesita un juicio importante
Más que el modelo en sí, la capa operativa que agrupa prompts, herramientas, caché, selección de modelo, evaluación y feedback online determina la calidad y el costo

Sesión 5 - The expanding toolkit

El código auxiliar que el año pasado se construía manualmente ahora está pasando a incluirse dentro del modelo y la API
En el uso de herramientas, disminuye el valor de los routers manuales o los decoradores de reintento
Claude puede encontrar herramientas por sí mismo, detectar y recuperarse de llamadas fallidas, y luego volver a invocarlas
En la guía de herramientas conviene incluir no solo las entradas, sino también el esquema de salida
Si Claude conoce de antemano la estructura de salida, puede aprovechar mejor los resultados sin llamadas de ida y vuelta innecesarias
Los hooks de herramienta pre/post de Claude Code pueden usarse para bloquear ciertas invocaciones o registrar y analizar resultados automáticamente
Con contexto de 1 millón de tokens, compresión del lado del servidor y edición de contexto, se simplifica la gestión del contexto en tareas largas
Capturas de pantalla antiguas, resultados de búsqueda y resultados de lectura de archivos pueden eliminarse periódicamente, y aun así conservar los juicios que produjeron
Opus 4.7 devuelve coordenadas de píxeles 1:1 a partir de capturas de pantalla en resolución original de hasta 1440p, lo que reduce la carga de corrección de coordenadas en automatización de pantalla
El código que compensa limitaciones del modelo tiene una vida corta, mientras que el código que conecta herramientas, datos, autenticación y contexto de dominio que Claude no puede ver permanece por más tiempo

Sesión 6 - How to get to production faster with Claude Managed Agents

Claude Managed Agents agrupa en una plataforma la gestión de contexto, gestión de credenciales, seguridad, control de acceso, revisión humana y observabilidad necesarias para agentes operativos de larga ejecución
La configuración básica consiste en agent configuration, environment y session
Con los session events se pueden ver eventos de usuario, eventos del agente, eventos de sesión y eventos de tramo
La Console reúne en una sola pantalla la configuración, el entorno, el trace de ejecución completo, cuellos de botella y acciones recomendadas
outcomes es una función que hace que Claude repita hasta cumplir los criterios de finalización y de evaluación definidos de antemano
La coordinación de varios agentes, la memoria y Dreaming también se tratan juntos como funciones avanzadas
En la demo del dashboard, el agent encontró paralelización, fast mode y optimización de prompts para reducir el tiempo de renderizado de unos 37 segundos a 10 segundos
Un agente operativo no solo necesita un bucle de llamadas al modelo, sino también trazabilidad, análisis de cuellos de botella, permisos y validación

Sesión 7 - A conversation with Dario Amodei & Daniela Amodei

Anthropic se quedó corto de recursos de cómputo por un crecimiento de uso e ingresos más rápido de lo esperado
Busca asegurar capacidad de cómputo adicional para ofrecer más a desarrolladores y usuarios
Los desarrolladores son tratados como usuarios clave de Claude y como el grupo que primero muestra cómo la IA se expande por toda la economía
El siguiente cambio en Claude Code pasa de la productividad personal a la productividad de equipos y organizaciones
Cuanto más rápido se escribe código, más se vuelven nuevos cuellos de botella la seguridad, validación, confiabilidad y mantenibilidad
Como las capacidades de los modelos cambian rápido, productos que hace unos meses eran imposibles de pronto se vuelven viables
El mercado de API seguirá siendo importante
En adelante, Claude irá más allá de ayudar al trabajo de una sola persona y avanzará hacia potenciar el trabajo de varias personas y varios agentes en toda la organización

Sesión 8 - Live coding session with Boris Cherny and Jarred Sumner

Robobun de Bun reproduce automáticamente issues de GitHub y crea PR con pruebas incluidas
Toma como criterio para enviar el PR una condición en la que falla en la versión anterior y pasa en la rama con la corrección
CLAUDE.md se convierte en un documento operativo del agente que incluye comandos de build, comandos de test, ubicación de las pruebas, patrones de fallas previas, estructura de carpetas y cómo leer logs de CI
Usan juntos CodeRabbit, Claude Code Review y Robobun para automatizar el estilo, el cumplimiento de CLAUDE.md y la revisión de condiciones límite fuera del diff
Claude Code y Opus 4.7 encajan bien en trabajos que elevan el rendimiento de forma gradual cuando están claros el objetivo, la forma de medir y la iteración de validación
El cuello de botella se mueve de escribir código a planificar y validar
Los PR creados por agentes no tienen que verse como entregables que necesariamente deban fusionarse, sino como propuestas revisables
Aunque aumenten los PR de agentes, el criterio humano para hacer merge no baja y hasta puede volverse más exigente

Sesión 9 - Building with Claude Managed Agents and Asana AI teammates

Los AI teammates de Asana apuntan a agentes que trabajen dentro de la empresa como si fueran compañeros reales
Los agentes se convierten en actors para gestionar aprobaciones, workflows y tareas de múltiples pasos junto con personas
En muchas empresas, el uso de agentes sigue limitado a un flujo de usuario único donde una persona recibe el resultado y se lo pasa a la siguiente
Asana busca un flujo de trabajo colaborativo donde varias personas interactúen con el mismo agente y se acumulen conocimiento y memoria
El Asana work graph conecta objetivos, portafolios, proyectos, tareas, aprobaciones y decisiones pasadas para usarlos como contexto del agente
El AI teammate entra al sistema como un colega humano, con configuración compartida, control de acceso basado en roles y auditabilidad
Claude Managed Agents maneja tareas de varios pasos como la redacción de briefs de campaña y la generación de mockups de landing pages HTML
Asana se enfoca en la interfaz humana, el contexto empresarial, la seguridad y la auditabilidad, mientras que Claude Managed Agents se encarga de iteraciones de validación, graders, outcomes y ejecución de múltiples agentes
Se ofrecen más de 21 AI teammates preconstruidos para tareas de PMO, marketing, TI, RR. HH. e I+D
El feedback queda en la memoria del agente para que el siguiente usuario no vuelva a pasar por el mismo error

Sesión 10 - Running an AI-native engineering org

En una organización de ingeniería AI-native, el throughput de escritura de código deja de ser el cuello de botella más caro
Validación, revisión, seguridad, mantenimiento y coordinación entre funciones crecen como nuevos cuellos de botella
Más que una hoja de ruta de 6 meses o documentos de diseño antes de cada tarea, al equipo de Claude Code le funciona mejor un flujo de planear en el momento adecuado y prototipar rápido
Los debates técnicos cambian de largas discusiones frente al pizarrón a crear varios PR de implementación para comparar el impacto real y la forma de la API
Como generar código se volvió fácil, las pruebas, la automatización y la validación más temprana se vuelven más importantes
Más importante que preguntar “quién escribió este código” es distinguir la causa de una regresión, si hace falta una respuesta experta y con qué fin se necesita asegurar el contexto
El equipo de Claude Code deja en manos de Claude el estilo, lint, feedback de PR, algunas correcciones de bugs y la adición de pruebas
La revisión legal, el código sensible de seguridad, los límites de confianza y el criterio de producto siguen quedando en manos de expertos humanos
En contratación, se valora más a constructores creativos con criterio de producto y a quienes tienen profunda experiencia en sistemas que el simple throughput
Las métricas de éxito pueden verse en menor tiempo de onboarding, ciclos de PR más cortos y más commits con ayuda de Claude

Sesión 11 - Building AI-native: Inside the stacks powering Cognition, Gamma, and Harvey

Gamma refleja rápido en el producto mejoras en llamadas a herramientas y coordinación de agentes para reforzar flujos de edición basados en agentes
Gamma usa el conector MCP no solo como función de integración, sino también como punto de entrada para adquisición de clientes y flujos de trabajo
Cognition ha reducido parte de sus sistemas propios de planificación y memoria a medida que los modelos mejoran en edición de código, uso del sistema de archivos y planes de ejecución largos
Harvey rediseña la estructura del producto en cada punto de inflexión de los foundation models, modelos de razonamiento y agentes de código
Las capacidades actuales de la plataforma de Harvey habrían sido difíciles de lograr sin una arquitectura agent-native
Los productos AI-native deben asumir que una arquitectura existente puede volverse obsoleta en 6 a 12 meses
Registro, observabilidad, reproducción y evaluación se vuelven mecanismos esenciales para responder a cambios rápidos de arquitectura
En sectores sensibles como el legal, se necesitan límites de datos sólidos entre datos públicos, datos privados, memoria y flujos de agentes
Más que una arquitectura ajustada a las limitaciones de un modelo específico, importa una que pueda absorber rápido el siguiente salto de capacidades

Sesión 12 - Architecting for model step-changes: A fireside with Vercel's Guillermo Rauch

Vercel ve la infraestructura agéntica como la dirección clave
La nube puede expandirse hacia una infraestructura que se recupere sola, se optimice y cambie su propia configuración
AI Gateway se trata como un CDN para tokens
Se convierte en una capa que maneja múltiples proveedores y modelos, y se encarga del enrutamiento, la tolerancia a fallas y el control de costos
Los tokens de Opus representan una proporción de gasto mucho mayor que su proporción de uso, así que al integrar modelos de alta inteligencia en un producto hay que revisar claramente la estructura de costos
Tras adoptar Opus 4.5, V0 pudo simplificar la revisión gramatical, la autocorrección y algunos procesos que antes ajustaban el modelo previo
El salto en capacidad del modelo no solo lleva a agregar funciones nuevas, sino también a eliminar código de ajuste existente
Después de ampliar el uso de Opus en V0, el gasto en créditos del producto se duplicó
En adelante, además del desarrollo basado en CLI y UI, podrían crecer más los agentes asincrónicos con menor supervisión humana

Sesión 13 - The thinking lever

La computación en tiempo de prueba (test-time compute) es el eje con el que Claude resuelve problemas difíciles usando más tokens y más tiempo durante el razonamiento
Incluso con el mismo Opus 4.7, la calidad de la simulación de tráfico cambia mucho según el effort low, high o max
Cuanto más tiempo y tokens se usan, más realistas se vuelven los gráficos, el flujo del tráfico y el movimiento de los vehículos
Los tokens que usa Claude se dividen en tokens de pensamiento, tokens de llamada de herramientas y tokens de texto
Los tokens de pensamiento se usan para razonamiento interno, los tokens de llamada de herramientas para interactuar con el mundo externo, y los tokens de texto para comunicarse con el usuario
effort es un control que expresa el equilibrio entre tiempo, costo y calidad
Task Budgets permite fijar límites superiores de tokens, tiempo y costo que Claude puede usar en una tarea específica
El pensamiento adaptativo (adaptive thinking) permite que Claude elija libremente el orden de pensar, usar herramientas y responder al usuario cuando sea necesario
En coding y en casos de uso agentic, extra high se considera un buen valor predeterminado
Para clasificación o extracción simple a gran escala convienen más los modelos pequeños, y para terminar rápido tareas que requieren inteligencia puede ser mejor un modelo grande con effort bajo

Sesión 14 - How Datadog built a universal machine tool for Claude Code

Aproximadamente el 90% de los ingenieros de Datadog usa herramientas de codificación con IA en código de producción
De ellos, al menos 2/3 usa Claude Code
El alcance del uso de herramientas de codificación con IA se está ampliando desde funciones individuales, pruebas y código de unión hacia trabajo a nivel de sistema
El cuello de botella se está moviendo de escribir código a la iteración de feedback y la validación en producción
En el experimento Helix, Claude Code pudo crear en pocos días un servicio de streaming similar a Kafka
Para llevarlo a un entorno de producción se necesitan shadowing, escalones de validación y kilometraje del sistema
Tempor hace que los agentes no improvisen herramientas sobre la marcha, sino que primero construyan un plano con estado, transiciones, efectos e invariantes
Tablas de transición, documentos de política, efectos tipados, validadores y pruebas de propiedades hacen que el software creado por agentes pueda inspeccionarse
Para dar libertad al agente, hay que hacer que los invariantes y los procedimientos de validación del sistema de producción sean legibles por máquina

Sesión 15 - Building with Claude on Google Cloud

La forma más sencilla de configurar Claude Code en Google Cloud es usando un asistente de configuración basado en Application Default Credentials
El asistente de configuración puede detectar y fijar project, region y los model disponibles
Al usar Claude model en Google Cloud, se puede aprovechar facturación basada en tokens, provisioned throughput, menor carga por rotación de API keys, aplicación de políticas del project, mantenimiento de datos dentro del project, y endpoints regionales/globales
La demo se desarrolló como un flujo en el que cinco roles —PM, UI/UX designer, software engineer, security engineer y data/growth marketer— construyen de principio a fin una app de feedback
El PM carga un wireframe dibujado a mano en Claude Code y crea rápidamente un prototipo
En la etapa de UI/UX se usa plan mode para que Claude proponga primero un plan antes de implementar
La Google Cloud developer knowledge API y el MCP server conectan documentación actualizada y guías de arquitectura a Claude Code
Google Cloud Skills se usa para ayudar a implementar bloques individuales, como desplegar una API en Cloud Run o conectar Cloud Run con Firestore
Se usan sub-agents para avanzar en paralelo con la implementación de la API, el pipeline de ingesta y el dashboard
El security review prompt revisa problemas de OWASP o permisos de service account, corrige los hallazgos y luego despliega en Cloud Run

Sesión 16 - Getting more out of the Claude Platform

Las prioridades para optimizar agentes en producción son prompt caching, context engineering y la estrategia Advisor
Prompt caching reduce el costo de los tokens de entrada, disminuye el tiempo hasta el primer token y baja la carga del límite de uso de los tokens cacheados
Una tasa de acierto de caché en el rango del 90% se maneja como objetivo
La estabilidad del prompt inicial, la ubicación de las definiciones de herramientas y el lugar donde se insertan valores dinámicos afectan la caché
La tool search tool carga solo las definiciones de herramientas necesarias en el momento oportuno y ahorra contexto
Si se incluyen todas las herramientas desde el inicio, la carga sobre el contexto y la caché aumenta mucho
La llamada programática de herramientas (programmatic tool calling) selecciona solo los fragmentos necesarios de muchos resultados de herramientas en lugar de meterlos completos en el contexto
La compactación (compaction) reduce conversaciones antiguas y resultados de herramientas para poder continuar tareas largas
La estrategia Advisor hace que Sonnet o Haiku realicen la mayor parte del trabajo, y solo llama a Opus como asesor cuando hace falta un juicio importante
La clave no es llamar más veces al modelo, sino diseñar con qué contexto, herramientas y estructura de caché va a trabajar el modelo

Sesión 17 - Evaluating and improving Replit Agent at scale

Los usuarios de Replit Agent esperan una app funcional a partir de lenguaje natural, sin especificar framework ni pruebas
A diferencia de los benchmarks generales de coding, es difícil medir la calidad de Replit Agent solo viendo si un parche pasa las pruebas
La evaluación debe revisar si la app funciona como la pidió el usuario
Replit usa tanto evaluación offline como evaluación online
La evaluación offline actúa como puerta de entrada antes de un nuevo release del agente, y la evaluación online se usa para responder rápido después del uso real
VibeBench es un benchmark público en el que 20 PRD reales se usan como entrada para crear una app desde un repositorio vacío, y un evaluador automático prueba la app en el navegador
A la mayoría de los modelos les cuesta más volver a ampliar el código que ellos mismos crearon
Hay que poner etapas de prueba y validación entre funciones para reducir el riesgo de seguir construyendo sobre una base inestable
Telescope es un sistema interno que agrupa trazas de ejecución en producción según significado para encontrar fallas de cola larga, clasificar problemas, hacer que el agente cree PR y validar con VibeBench o pruebas A/B
La evaluación deja de ser una lista final de verificación de lanzamiento y se convierte en un motor para mejorar al agente todos los días

Sesión 18 - The capability curve

Los usuarios de Claude Code despliegan más rápido y con mayor confianza que el año pasado
En una votación durante la presentación, muchos asistentes respondieron que perciben con Claude una mejora de velocidad de 10x, 5x o 2x
En SWE-bench Verified, Sonnet 3.7 registró alrededor de 62% y Opus 4.7 87%
Opus 4.7 tiene una probabilidad más de 3 veces mayor de resolver con éxito PR difíciles en los que Sonnet 3.7 fallaba
En una demo para recrear Claude.ai con el mismo prompt, los modelos anteriores produjeron una UI de chat genérica y errores, mientras que Opus 4.7 implementó los colores de Claude, respuestas de API, historial de chat, gráficos inline y dark mode
Las áreas mejoradas son planificación, recuperación ante errores y mantenimiento de la atención durante ejecuciones largas
El nuevo modelo primero planifica, retrocede si falla y mantiene mejor el prompt del sistema y los objetivos incluso en contextos largos
Hay que crear evaluaciones con una distribución más cercana al producto para ver mejoras reales
A medida que el modelo mejora, las evaluaciones existentes se saturan fácilmente, así que las evaluaciones también deben volverse cada vez más difíciles
Cuando aparece un nuevo frontier model, conviene volver a probar reduciendo los procedimientos de calibración y los prompts existentes

Sesión 19 - Giving coding agents their own computers: How Cursor built cloud agents

Cursor considera que el cuello de botella no está tanto en la inteligencia del modelo, sino en que las personas no logran dar al modelo suficientes herramientas, contexto y objetivos amplios
Igual que se hace onboarding a un desarrollador humano, un agente también debe recibir una computadora, un entorno de desarrollo y documentación
El onboarding agent de Cursor explora el repositorio y entiende cómo ejecutar la app, los servicios, las variables de entorno y los permisos
AnyDev CLI es una herramienta que ayuda a que el agente inicie servicios, espere a que estén listos, revise su estado y hasta gestione la creación de cuentas de prueba o el inicio de sesión
Cuanto mejor es el entorno de desarrollo para agentes, más cloud agents ejecutan los desarrolladores y más grandes son las tareas que les asignan
El principio básico de la autonomía es darle al agente ojos, herramientas y buen contexto
El agente debe poder ver, como una persona, el estado de la app, las conversaciones de otros agentes y el estado de los servicios
Cursor ve computer use como un elemento fundamental importante después de la codificación
Claude 4.7 permite que el agent grabe por sí mismo demos end-to-end para verificar funciones y que las personas entiendan rápidamente el resultado antes del code review
Cursor trata la agent experience como un objetivo de diseño aparte y, si el agente se encuentra con flujos molestos, rotos o confusos, hace que los registre como issues de work on the factory
El objetivo final no es que una persona lo lleve manualmente de la A a la D, sino construir un sistema capaz de resolver de la A a la Z