36 puntos por GN⁺ 20 일 전 | 1 comentarios | Compartir por WhatsApp
  • En Claude Platform se incorporó oficialmente la estrategia Advisor: un patrón que combina a Opus como asesor y a Sonnet o Haiku como ejecutor, para aplicar al agente una capacidad de razonamiento cercana al nivel de Opus mientras se reducen los costos
  • Cuando Sonnet se combina con un asesor Opus, en lugar de ejecutar la tarea por sí solo, la puntuación en SWE-bench Multilingual mejora 2.7 puntos porcentuales y el costo por tarea de agente se reduce en 11.9%
  • La combinación Haiku + asesor Opus registró un rendimiento de 41.2% en BrowseComp, más del doble que Haiku por sí solo (19.7%), y redujo el costo en 85% frente a Sonnet por sí solo
  • Si se declara la herramienta advisor_20260301 en una solicitud a la Messages API, el handoff entre modelos se completa dentro de una sola solicitud a /v1/messages, sin rondas adicionales ni gestión manual del contexto
  • Los tokens del asesor se cobran con la tarifa del modelo asesor, y los tokens del ejecutor con la tarifa del modelo ejecutor, por lo que la estructura permite seguir y controlar los costos

Resumen de la estrategia Advisor

  • Sonnet o Haiku actúan como ejecutor y realizan la tarea de principio a fin, encargándose de llamar herramientas, leer resultados y repetir iteraciones
  • Cuando el ejecutor llega a una decisión que no puede resolver razonablemente, solicita orientación a Opus, y Opus consulta el contexto compartido para devolver uno de estos resultados: plan, corrección o señal de detención
  • El asesor (Opus) no llama herramientas directamente ni genera salidas de cara al usuario; solo proporciona guía al ejecutor
  • Esta estructura invierte el patrón tradicional de subagentes, en el que un gran modelo orquestador descompone el trabajo y lo delega a modelos worker más pequeños, y funciona sin pools de workers ni lógica de orquestación separada
  • El razonamiento de nivel frontier solo se aplica cuando el ejecutor lo necesita, mientras que el resto de la ejecución mantiene el costo del modelo ejecutor

Resultados de evaluación de rendimiento

  • La combinación Sonnet + asesor Opus logró una mejora de 2.7 puntos porcentuales en SWE-bench Multilingual frente a Sonnet solo, y redujo el costo por tarea de agente en 11.9%
  • En los benchmarks BrowseComp y Terminal-Bench 2.0 también mejoró la puntuación frente a Sonnet por sí solo, con menor costo por tarea
  • Haiku + asesor Opus: puntuación de 41.2% en BrowseComp, más del doble que Haiku solo (19.7%)
    • La puntuación es 29% menor que la de Sonnet solo, pero el costo por tarea es 85% más bajo
    • Aunque agregar el asesor aumenta el costo frente a Haiku por sí solo, el costo combinado sigue siendo muy inferior al de Sonnet

Cómo usar la herramienta Advisor

  • Si se declara advisor_20260301 en una solicitud a la Messages API, el handoff entre modelos se completa dentro de una sola solicitud a /v1/messages, sin necesidad de rondas adicionales ni gestión de contexto
  • El modelo ejecutor decide por sí mismo cuándo invocar al asesor; el contexto curado se envía al modelo asesor y este devuelve un plan
  • Con el parámetro max_uses se puede establecer un límite superior de llamadas al asesor por solicitud
  • Los tokens del asesor se reportan por separado en el bloque usage, lo que permite rastrear el gasto por nivel
  • Puede usarse dentro del mismo loop junto con herramientas existentes, como búsqueda web o ejecución de código
response = client.messages.create(  
    model="claude-sonnet-4-6",  # executor  
    tools=[  
        {  
            "type": "advisor_20260301",  
            "name": "advisor",  
            "model": "claude-opus-4-6",  
            "max_uses": 3,  
        },  
        # ... your other tools  
    ],  
    messages=[...]  
)  

Estructura de precios

  • Los tokens del asesor se cobran con la tarifa del modelo asesor (Opus), y los tokens del ejecutor con la tarifa del modelo ejecutor (Sonnet/Haiku)
  • Como el asesor solo genera planes breves (por lo general entre 400 y 700 tokens de texto) y la salida completa la procesa el ejecutor a una tarifa más baja, el costo total se mantiene muy por debajo del de ejecutar únicamente el modelo asesor

Comentarios de usuarios

  • Ingeniero de ML de Eve Legal: "Haiku 4.5 amplía dinámicamente su inteligencia consultando a Opus 4.6 según la complejidad, y logra una calidad de nivel frontier con un costo 5 veces menor"
  • CEO de Bolt: "Toma mejores decisiones de arquitectura en tareas complejas, y en tareas simples no hay overhead; la diferencia entre la trayectoria de planificación y la de ejecución es muy clara"
  • CTO de Genspark: "Hay mejoras claras en turnos de agente, llamadas a herramientas y puntuación total; los resultados son superiores a los de nuestra herramienta de planificación desarrollada internamente"

Primeros pasos

  • Actualmente está disponible en beta en Claude Platform
  • Procedimiento de inicio:
    1. Agregar el header de función beta: anthropic-beta: advisor-tool-2026-03-01
    2. Agregar advisor_20260301 a la solicitud de Messages API
    3. Ajustar el prompt del sistema según el caso de uso
  • Se recomienda comparar tres configuraciones con tu suite de evaluación existente: Sonnet solo / Sonnet + asesor Opus / Opus solo

1 comentarios

 
heycalmdown 20 일 전

No es una idea particularmente novedosa en este momento, pero me parece un buen enfoque porque se puede implementar sin romper la firma de la interfaz ni el flujo de trabajo.