- La conferencia para desarrolladores de Anthropic: se realiza en línea y presencialmente, y los eventos presenciales se celebran en San Francisco el 5/6, Londres el 5/19 y Tokio el 6/10. En el evento de San Francisco se publicaron videos de 19 sesiones
- Claude está evolucionando hacia la ejecución de tareas más largas, memoria de largo plazo, uso de más herramientas y mejor verificación
- El cambio clave es que la ejecución iterativa, la selección de herramientas, la verificación, la memoria y la gestión del contexto, que antes los desarrolladores construían por su cuenta, están pasando a integrarse dentro de los productos y la plataforma de Claude
- La diferenciación de productos y organizaciones se está desplazando de cómo se invoca al modelo a qué herramientas, datos, permisos y contexto se le abren al modelo
- Más que la escritura de código en sí, la verificación, la seguridad, la gestión de permisos, la observabilidad, los sistemas de evaluación y la operación organizacional están creciendo como los nuevos cuellos de botella
- En adelante, las áreas importantes serán herramientas personalizadas, memoria confiable, evaluación, límites de seguridad, context engineering y agent experience
- El enfoque estuvo en mejoras de producto para que Claude Code y Claude Platform funcionen mejor para los desarrolladores
- La mayoría de los usuarios no usan directamente la API de Claude ni la terminal, sino que usan Claude dentro de productos creados por desarrolladores
- El uso de la API de Claude Platform aumentó casi 17 veces interanualmente
- El desarrollador promedio de Claude Code ejecuta Claude 20 horas por semana
- El límite de uso de 5 horas de Claude Code se duplicó en los planes Pro, Max, Team y seat-based Enterprise
- El límite de la API de Claude Opus también aumentó considerablemente
- Se busca aprovechar la capacidad del centro de datos Colossus One de SpaceX para ofrecer más recursos de cómputo a desarrolladores individuales y equipos pequeños
- Opus 4.7 mejoró el rendimiento de agentes de programación, la calidad de planificación y la tasa de resolución de tareas reales de ingeniería en Amp, Rakuten e Intuit
- El Claude del futuro avanza hacia mejor criterio, mayor contexto y memoria, y colaboración entre múltiples agentes
- Las nuevas funciones de Claude Code se agrupan en dos ejes: mejor usabilidad para desarrolladores y más autonomía
- Remote Control permite continuar en la web o en móvil una sesión iniciada desde la terminal
- Full screen terminal UI usa scrollback virtual para ofrecer renderizado sin parpadeos y una pantalla de invocación de herramientas en la que se puede hacer clic
- La GUI de Claude Code cambió para permitir administrar múltiples sesiones con fijado, filtrado, agrupación y pantalla dividida
- En plan view, diff view y files view se pueden dejar comentarios por línea, y Claude puede recopilarlos y procesarlos después
- Auto Mode clasifica si una invocación de herramienta es destructiva o si parece prompt injection, y si es segura la ejecuta sin pedir confirmación de permisos
- Worktree permite que varias sesiones de Claude trabajen en paralelo, cada una con su propia rama aislada y copia de archivos
- Auto memory hace que Claude gestione
memory.md y archivos relacionados por proyecto, y reutilice en sesiones futuras comandos de build, pistas de depuración y preferencias del proyecto
- Routines y
/loop permiten ejecutar automáticamente sesiones de Claude Code mediante cron, webhooks de GitHub o disparadores de API
- Memory se presenta como un componente base para la siguiente etapa después de MCP, Claude Code, Agent SDK y Skills
- La memoria de Claude Managed Agents está estructurada como un sistema de archivos, de modo que Claude puede organizarla y actualizarla directamente con Bash y Grep
- Opus 4.7 juzga mejor qué guardar, cómo dividir los archivos y cómo mantener la estructura de la memoria
- Se puede separar entre memoria organizacional de solo lectura y memoria de trabajo de lectura y escritura para que varios agentes lean y escriban sobre el mismo repositorio de memoria
- Para evitar sobreescrituras cuando cientos de agentes modifican la memoria al mismo tiempo, se usa control de concurrencia optimista basado en hash de contenido
- Se registran historial de cambios, autoría, sesión y momento, para gestionar la memoria como auditable en entornos empresariales
- Dreaming analiza de forma asíncrona sesiones recientes de agentes y transcripts para detectar errores repetidos, estrategias exitosas, memoria duplicada y memoria obsoleta, y así ordenarla
- Harvey aplicó Dreaming a benchmarks legales y elevó 6 veces la tasa de finalización de tareas en un escenario jurídico
- En una demo de SRE, Dreaming encontró un patrón de reintentos cada 60 segundos que varios agentes no detectaban por separado y lo reflejó en la memoria
- El objetivo es una estructura de aprendizaje continuo en la que el trabajo de los agentes de hoy mejore automáticamente a los agentes de mañana
- A la escala de GitHub Copilot, el prompt caching se vuelve un medio clave para reducir costos y latencia
- La tasa objetivo de aciertos de caché es de 94-96%, y un nivel de 70% se considera una señal de problemas en el ensamblado de prompts o en el diseño del caché
- La primera parte del system prompt y de la lista de herramientas debe mantenerse lo más estática posible
- Si al inicio se incluyen UUID, marcas de tiempo o carga dinámica de herramientas, el caché se rompe fácilmente
- Incluso en un harness que pasa entre varios modelos, debe mantenerse compatibilidad con el caché para que las llamadas a Opus reutilicen cachés previos
- GitHub pone en marcha nuevos modelos en el orden de benchmarks offline, uso interno, pruebas A/B, evaluación online (eval) y optimización posterior al lanzamiento
- La estrategia Advisor consiste en que un modelo de ejecución barato haga la mayor parte del trabajo, y que Opus solo sea llamado como asesor cuando se necesita un juicio importante
- Más que el modelo en sí, la capa operativa que agrupa prompts, herramientas, caché, selección de modelo, evaluación y feedback online determina la calidad y el costo
- El código auxiliar que el año pasado se construía manualmente ahora está pasando a incluirse dentro del modelo y la API
- En el uso de herramientas, disminuye el valor de los routers manuales o los decoradores de reintento
- Claude puede encontrar herramientas por sí mismo, detectar y recuperarse de llamadas fallidas, y luego volver a invocarlas
- En la guía de herramientas conviene incluir no solo las entradas, sino también el esquema de salida
- Si Claude conoce de antemano la estructura de salida, puede aprovechar mejor los resultados sin llamadas de ida y vuelta innecesarias
- Los hooks de herramienta pre/post de Claude Code pueden usarse para bloquear ciertas invocaciones o registrar y analizar resultados automáticamente
- Con contexto de 1 millón de tokens, compresión del lado del servidor y edición de contexto, se simplifica la gestión del contexto en tareas largas
- Capturas de pantalla antiguas, resultados de búsqueda y resultados de lectura de archivos pueden eliminarse periódicamente, y aun así conservar los juicios que produjeron
- Opus 4.7 devuelve coordenadas de píxeles 1:1 a partir de capturas de pantalla en resolución original de hasta 1440p, lo que reduce la carga de corrección de coordenadas en automatización de pantalla
- El código que compensa limitaciones del modelo tiene una vida corta, mientras que el código que conecta herramientas, datos, autenticación y contexto de dominio que Claude no puede ver permanece por más tiempo
- Claude Managed Agents agrupa en una plataforma la gestión de contexto, gestión de credenciales, seguridad, control de acceso, revisión humana y observabilidad necesarias para agentes operativos de larga ejecución
- La configuración básica consiste en agent configuration, environment y session
- Con los session events se pueden ver eventos de usuario, eventos del agente, eventos de sesión y eventos de tramo
- La Console reúne en una sola pantalla la configuración, el entorno, el trace de ejecución completo, cuellos de botella y acciones recomendadas
- outcomes es una función que hace que Claude repita hasta cumplir los criterios de finalización y de evaluación definidos de antemano
- La coordinación de varios agentes, la memoria y Dreaming también se tratan juntos como funciones avanzadas
- En la demo del dashboard, el agent encontró paralelización, fast mode y optimización de prompts para reducir el tiempo de renderizado de unos 37 segundos a 10 segundos
- Un agente operativo no solo necesita un bucle de llamadas al modelo, sino también trazabilidad, análisis de cuellos de botella, permisos y validación
- Anthropic se quedó corto de recursos de cómputo por un crecimiento de uso e ingresos más rápido de lo esperado
- Busca asegurar capacidad de cómputo adicional para ofrecer más a desarrolladores y usuarios
- Los desarrolladores son tratados como usuarios clave de Claude y como el grupo que primero muestra cómo la IA se expande por toda la economía
- El siguiente cambio en Claude Code pasa de la productividad personal a la productividad de equipos y organizaciones
- Cuanto más rápido se escribe código, más se vuelven nuevos cuellos de botella la seguridad, validación, confiabilidad y mantenibilidad
- Como las capacidades de los modelos cambian rápido, productos que hace unos meses eran imposibles de pronto se vuelven viables
- El mercado de API seguirá siendo importante
- En adelante, Claude irá más allá de ayudar al trabajo de una sola persona y avanzará hacia potenciar el trabajo de varias personas y varios agentes en toda la organización
- Robobun de Bun reproduce automáticamente issues de GitHub y crea PR con pruebas incluidas
- Toma como criterio para enviar el PR una condición en la que falla en la versión anterior y pasa en la rama con la corrección
CLAUDE.md se convierte en un documento operativo del agente que incluye comandos de build, comandos de test, ubicación de las pruebas, patrones de fallas previas, estructura de carpetas y cómo leer logs de CI
- Usan juntos CodeRabbit, Claude Code Review y Robobun para automatizar el estilo, el cumplimiento de
CLAUDE.md y la revisión de condiciones límite fuera del diff
- Claude Code y Opus 4.7 encajan bien en trabajos que elevan el rendimiento de forma gradual cuando están claros el objetivo, la forma de medir y la iteración de validación
- El cuello de botella se mueve de escribir código a planificar y validar
- Los PR creados por agentes no tienen que verse como entregables que necesariamente deban fusionarse, sino como propuestas revisables
- Aunque aumenten los PR de agentes, el criterio humano para hacer merge no baja y hasta puede volverse más exigente
- Los AI teammates de Asana apuntan a agentes que trabajen dentro de la empresa como si fueran compañeros reales
- Los agentes se convierten en actors para gestionar aprobaciones, workflows y tareas de múltiples pasos junto con personas
- En muchas empresas, el uso de agentes sigue limitado a un flujo de usuario único donde una persona recibe el resultado y se lo pasa a la siguiente
- Asana busca un flujo de trabajo colaborativo donde varias personas interactúen con el mismo agente y se acumulen conocimiento y memoria
- El Asana work graph conecta objetivos, portafolios, proyectos, tareas, aprobaciones y decisiones pasadas para usarlos como contexto del agente
- El AI teammate entra al sistema como un colega humano, con configuración compartida, control de acceso basado en roles y auditabilidad
- Claude Managed Agents maneja tareas de varios pasos como la redacción de briefs de campaña y la generación de mockups de landing pages HTML
- Asana se enfoca en la interfaz humana, el contexto empresarial, la seguridad y la auditabilidad, mientras que Claude Managed Agents se encarga de iteraciones de validación, graders, outcomes y ejecución de múltiples agentes
- Se ofrecen más de 21 AI teammates preconstruidos para tareas de PMO, marketing, TI, RR. HH. e I+D
- El feedback queda en la memoria del agente para que el siguiente usuario no vuelva a pasar por el mismo error
- En una organización de ingeniería AI-native, el throughput de escritura de código deja de ser el cuello de botella más caro
- Validación, revisión, seguridad, mantenimiento y coordinación entre funciones crecen como nuevos cuellos de botella
- Más que una hoja de ruta de 6 meses o documentos de diseño antes de cada tarea, al equipo de Claude Code le funciona mejor un flujo de planear en el momento adecuado y prototipar rápido
- Los debates técnicos cambian de largas discusiones frente al pizarrón a crear varios PR de implementación para comparar el impacto real y la forma de la API
- Como generar código se volvió fácil, las pruebas, la automatización y la validación más temprana se vuelven más importantes
- Más importante que preguntar “quién escribió este código” es distinguir la causa de una regresión, si hace falta una respuesta experta y con qué fin se necesita asegurar el contexto
- El equipo de Claude Code deja en manos de Claude el estilo, lint, feedback de PR, algunas correcciones de bugs y la adición de pruebas
- La revisión legal, el código sensible de seguridad, los límites de confianza y el criterio de producto siguen quedando en manos de expertos humanos
- En contratación, se valora más a constructores creativos con criterio de producto y a quienes tienen profunda experiencia en sistemas que el simple throughput
- Las métricas de éxito pueden verse en menor tiempo de onboarding, ciclos de PR más cortos y más commits con ayuda de Claude
- Gamma refleja rápido en el producto mejoras en llamadas a herramientas y coordinación de agentes para reforzar flujos de edición basados en agentes
- Gamma usa el conector MCP no solo como función de integración, sino también como punto de entrada para adquisición de clientes y flujos de trabajo
- Cognition ha reducido parte de sus sistemas propios de planificación y memoria a medida que los modelos mejoran en edición de código, uso del sistema de archivos y planes de ejecución largos
- Harvey rediseña la estructura del producto en cada punto de inflexión de los foundation models, modelos de razonamiento y agentes de código
- Las capacidades actuales de la plataforma de Harvey habrían sido difíciles de lograr sin una arquitectura agent-native
- Los productos AI-native deben asumir que una arquitectura existente puede volverse obsoleta en 6 a 12 meses
- Registro, observabilidad, reproducción y evaluación se vuelven mecanismos esenciales para responder a cambios rápidos de arquitectura
- En sectores sensibles como el legal, se necesitan límites de datos sólidos entre datos públicos, datos privados, memoria y flujos de agentes
- Más que una arquitectura ajustada a las limitaciones de un modelo específico, importa una que pueda absorber rápido el siguiente salto de capacidades
- Vercel ve la infraestructura agéntica como la dirección clave
- La nube puede expandirse hacia una infraestructura que se recupere sola, se optimice y cambie su propia configuración
- AI Gateway se trata como un CDN para tokens
- Se convierte en una capa que maneja múltiples proveedores y modelos, y se encarga del enrutamiento, la tolerancia a fallas y el control de costos
- Los tokens de Opus representan una proporción de gasto mucho mayor que su proporción de uso, así que al integrar modelos de alta inteligencia en un producto hay que revisar claramente la estructura de costos
- Tras adoptar Opus 4.5, V0 pudo simplificar la revisión gramatical, la autocorrección y algunos procesos que antes ajustaban el modelo previo
- El salto en capacidad del modelo no solo lleva a agregar funciones nuevas, sino también a eliminar código de ajuste existente
- Después de ampliar el uso de Opus en V0, el gasto en créditos del producto se duplicó
- En adelante, además del desarrollo basado en CLI y UI, podrían crecer más los agentes asincrónicos con menor supervisión humana
- La computación en tiempo de prueba (test-time compute) es el eje con el que Claude resuelve problemas difíciles usando más tokens y más tiempo durante el razonamiento
- Incluso con el mismo Opus 4.7, la calidad de la simulación de tráfico cambia mucho según el effort low, high o max
- Cuanto más tiempo y tokens se usan, más realistas se vuelven los gráficos, el flujo del tráfico y el movimiento de los vehículos
- Los tokens que usa Claude se dividen en tokens de pensamiento, tokens de llamada de herramientas y tokens de texto
- Los tokens de pensamiento se usan para razonamiento interno, los tokens de llamada de herramientas para interactuar con el mundo externo, y los tokens de texto para comunicarse con el usuario
- effort es un control que expresa el equilibrio entre tiempo, costo y calidad
- Task Budgets permite fijar límites superiores de tokens, tiempo y costo que Claude puede usar en una tarea específica
- El pensamiento adaptativo (adaptive thinking) permite que Claude elija libremente el orden de pensar, usar herramientas y responder al usuario cuando sea necesario
- En coding y en casos de uso agentic, extra high se considera un buen valor predeterminado
- Para clasificación o extracción simple a gran escala convienen más los modelos pequeños, y para terminar rápido tareas que requieren inteligencia puede ser mejor un modelo grande con effort bajo
- Aproximadamente el 90% de los ingenieros de Datadog usa herramientas de codificación con IA en código de producción
- De ellos, al menos 2/3 usa Claude Code
- El alcance del uso de herramientas de codificación con IA se está ampliando desde funciones individuales, pruebas y código de unión hacia trabajo a nivel de sistema
- El cuello de botella se está moviendo de escribir código a la iteración de feedback y la validación en producción
- En el experimento Helix, Claude Code pudo crear en pocos días un servicio de streaming similar a Kafka
- Para llevarlo a un entorno de producción se necesitan shadowing, escalones de validación y kilometraje del sistema
- Tempor hace que los agentes no improvisen herramientas sobre la marcha, sino que primero construyan un plano con estado, transiciones, efectos e invariantes
- Tablas de transición, documentos de política, efectos tipados, validadores y pruebas de propiedades hacen que el software creado por agentes pueda inspeccionarse
- Para dar libertad al agente, hay que hacer que los invariantes y los procedimientos de validación del sistema de producción sean legibles por máquina
- La forma más sencilla de configurar Claude Code en Google Cloud es usando un asistente de configuración basado en Application Default Credentials
- El asistente de configuración puede detectar y fijar project, region y los model disponibles
- Al usar Claude model en Google Cloud, se puede aprovechar facturación basada en tokens, provisioned throughput, menor carga por rotación de API keys, aplicación de políticas del project, mantenimiento de datos dentro del project, y endpoints regionales/globales
- La demo se desarrolló como un flujo en el que cinco roles —PM, UI/UX designer, software engineer, security engineer y data/growth marketer— construyen de principio a fin una app de feedback
- El PM carga un wireframe dibujado a mano en Claude Code y crea rápidamente un prototipo
- En la etapa de UI/UX se usa plan mode para que Claude proponga primero un plan antes de implementar
- La Google Cloud developer knowledge API y el MCP server conectan documentación actualizada y guías de arquitectura a Claude Code
- Google Cloud Skills se usa para ayudar a implementar bloques individuales, como desplegar una API en Cloud Run o conectar Cloud Run con Firestore
- Se usan sub-agents para avanzar en paralelo con la implementación de la API, el pipeline de ingesta y el dashboard
- El security review prompt revisa problemas de OWASP o permisos de service account, corrige los hallazgos y luego despliega en Cloud Run
- Las prioridades para optimizar agentes en producción son prompt caching, context engineering y la estrategia Advisor
- Prompt caching reduce el costo de los tokens de entrada, disminuye el tiempo hasta el primer token y baja la carga del límite de uso de los tokens cacheados
- Una tasa de acierto de caché en el rango del 90% se maneja como objetivo
- La estabilidad del prompt inicial, la ubicación de las definiciones de herramientas y el lugar donde se insertan valores dinámicos afectan la caché
- La tool search tool carga solo las definiciones de herramientas necesarias en el momento oportuno y ahorra contexto
- Si se incluyen todas las herramientas desde el inicio, la carga sobre el contexto y la caché aumenta mucho
- La llamada programática de herramientas (programmatic tool calling) selecciona solo los fragmentos necesarios de muchos resultados de herramientas en lugar de meterlos completos en el contexto
- La compactación (compaction) reduce conversaciones antiguas y resultados de herramientas para poder continuar tareas largas
- La estrategia Advisor hace que Sonnet o Haiku realicen la mayor parte del trabajo, y solo llama a Opus como asesor cuando hace falta un juicio importante
- La clave no es llamar más veces al modelo, sino diseñar con qué contexto, herramientas y estructura de caché va a trabajar el modelo
- Los usuarios de Replit Agent esperan una app funcional a partir de lenguaje natural, sin especificar framework ni pruebas
- A diferencia de los benchmarks generales de coding, es difícil medir la calidad de Replit Agent solo viendo si un parche pasa las pruebas
- La evaluación debe revisar si la app funciona como la pidió el usuario
- Replit usa tanto evaluación offline como evaluación online
- La evaluación offline actúa como puerta de entrada antes de un nuevo release del agente, y la evaluación online se usa para responder rápido después del uso real
- VibeBench es un benchmark público en el que 20 PRD reales se usan como entrada para crear una app desde un repositorio vacío, y un evaluador automático prueba la app en el navegador
- A la mayoría de los modelos les cuesta más volver a ampliar el código que ellos mismos crearon
- Hay que poner etapas de prueba y validación entre funciones para reducir el riesgo de seguir construyendo sobre una base inestable
- Telescope es un sistema interno que agrupa trazas de ejecución en producción según significado para encontrar fallas de cola larga, clasificar problemas, hacer que el agente cree PR y validar con VibeBench o pruebas A/B
- La evaluación deja de ser una lista final de verificación de lanzamiento y se convierte en un motor para mejorar al agente todos los días
- Los usuarios de Claude Code despliegan más rápido y con mayor confianza que el año pasado
- En una votación durante la presentación, muchos asistentes respondieron que perciben con Claude una mejora de velocidad de 10x, 5x o 2x
- En SWE-bench Verified, Sonnet 3.7 registró alrededor de 62% y Opus 4.7 87%
- Opus 4.7 tiene una probabilidad más de 3 veces mayor de resolver con éxito PR difíciles en los que Sonnet 3.7 fallaba
- En una demo para recrear Claude.ai con el mismo prompt, los modelos anteriores produjeron una UI de chat genérica y errores, mientras que Opus 4.7 implementó los colores de Claude, respuestas de API, historial de chat, gráficos inline y dark mode
- Las áreas mejoradas son planificación, recuperación ante errores y mantenimiento de la atención durante ejecuciones largas
- El nuevo modelo primero planifica, retrocede si falla y mantiene mejor el prompt del sistema y los objetivos incluso en contextos largos
- Hay que crear evaluaciones con una distribución más cercana al producto para ver mejoras reales
- A medida que el modelo mejora, las evaluaciones existentes se saturan fácilmente, así que las evaluaciones también deben volverse cada vez más difíciles
- Cuando aparece un nuevo frontier model, conviene volver a probar reduciendo los procedimientos de calibración y los prompts existentes
- Cursor considera que el cuello de botella no está tanto en la inteligencia del modelo, sino en que las personas no logran dar al modelo suficientes herramientas, contexto y objetivos amplios
- Igual que se hace onboarding a un desarrollador humano, un agente también debe recibir una computadora, un entorno de desarrollo y documentación
- El onboarding agent de Cursor explora el repositorio y entiende cómo ejecutar la app, los servicios, las variables de entorno y los permisos
- AnyDev CLI es una herramienta que ayuda a que el agente inicie servicios, espere a que estén listos, revise su estado y hasta gestione la creación de cuentas de prueba o el inicio de sesión
- Cuanto mejor es el entorno de desarrollo para agentes, más cloud agents ejecutan los desarrolladores y más grandes son las tareas que les asignan
- El principio básico de la autonomía es darle al agente ojos, herramientas y buen contexto
- El agente debe poder ver, como una persona, el estado de la app, las conversaciones de otros agentes y el estado de los servicios
- Cursor ve computer use como un elemento fundamental importante después de la codificación
- Claude 4.7 permite que el agent grabe por sí mismo demos end-to-end para verificar funciones y que las personas entiendan rápidamente el resultado antes del code review
- Cursor trata la agent experience como un objetivo de diseño aparte y, si el agente se encuentra con flujos molestos, rotos o confusos, hace que los registre como issues de
work on the factory
- El objetivo final no es que una persona lo lleve manualmente de la A a la D, sino construir un sistema capaz de resolver de la A a la Z
Aún no hay comentarios.