Anthropic lanza Claude Opus 4.8
(anthropic.com)Anthropic lanzó Claude Opus 4.8, una versión mejorada de su modelo insignia Claude Opus. Basado en la versión anterior 4.7, mejora el rendimiento en benchmarks y refuerza las capacidades de colaboración, mientras mantiene el mismo precio.
Principales mejoras y características
- Mejor rendimiento: muestra un desempeño superior al del modelo anterior y al de modelos competidores como GPT-5.5 en tareas de programación, habilidades de agentes, razonamiento y conocimiento práctico.
- Mayor honestidad (Honesty): se mejoró el problema de que la IA haga afirmaciones sin fundamento o llegue a conclusiones precipitadas. Opus 4.8 señala por sí mismo las partes inciertas, y la probabilidad de pasar por alto defectos en el código se redujo aproximadamente 4 veces frente al modelo anterior.
- Capacidades de agente confiables: según pruebas iniciales, su criterio se volvió más fino al realizar tareas complejas de múltiples pasos, y muestra mejores capacidades de colaboración al detectar sus propios errores y cuestionar planes cuando no son válidos.
- Eficiencia de costos: la velocidad de 'Fast Mode' aumentó 2.5 veces, y el costo se redujo a una tercera parte frente al modelo anterior.
Nuevas funciones lanzadas junto con el modelo
- Dynamic Workflows: función en research preview de Claude Code que permite ejecutar cientos de subagentes en paralelo para realizar tareas complejas, como migraciones de grandes bases de código.
- Effort Control: permite al usuario elegir el nivel de esfuerzo que Claude dedicará a una tarea. Con una configuración alta, piensa más a fondo para ofrecer respuestas de mayor calidad; con una baja, responde más rápido.
- Actualización de la Messages API: ahora se pueden incluir entradas del sistema dentro del arreglo de mensajes, lo que permite actualizar instrucciones a mitad de una tarea sin romper la caché de prompts.
Planes a futuro
Anthropic está desarrollando un modelo que ofrecerá rendimiento de nivel Opus a menor costo y, a través de Project Glasswing, prepara una nueva clase de modelos con mayor inteligencia que Opus (Claude Mythos). Actualmente está en pruebas de seguridad con algunas organizaciones y se espera que esté disponible para todos los clientes en unas semanas.
Precios y disponibilidad
- Modo general: entrada $5 / 1M tokens, salida $25 / 1M tokens (igual que Opus 4.7)
- Fast Mode: entrada $10 / 1M tokens, salida $50 / 1M tokens
- Nombre del modelo:
claude-opus-4-8
11 comentarios
Me hace tropezar demasiado, así que al final siento que un GPT estable es mejor.
Estuve usando Claude de $200, luego me pasé a GPT $100 + Claude $100,
pero desde el próximo mes voy a usar solo $20 de Claude. Total, es solo para revisión, así que ya no necesito tanto, y si me falta, también pago AGY, así que puedo usar eso jaja
¿Por qué abandonan a Sonnet y Haiku? ¿Están pensando demasiado solo en competir con GPT?
Dicen que la variante de fast mode funciona 2.5 veces más rápido que antes y cuesta 3 veces menos.
Tengo la suscripción de Claude rebajada a Pro y estoy usando GPT, pero como tenía algo en marcha le pedí que hiciera una revisión; el cupo de uso de Pro se me derritió por completo en apenas 10 minutos y se detuvo.
¡Impresionante, Claude!
Durante la mañana, en mi caso he estado usando una habilidad para organizar reuniones o transcripciones grabadas, y al probar esto en 4.8 cambiando el esfuerzo a
ultracode, resultó bastante mejor de lo que esperaba. Personalmente, siento que muestra una tendencia parecida a Codex. La eficiencia de tokens todavía está por debajo de Codex, pero la ventana de contexto es bastante generosa, y además por el workflow también cambió un poco la pantalla del subagente, y esa parte también me gusta.La 4.7 de verdad se sentía tan difícil de usar que era casi insoportable; ojalá que la 4.8 sí haya mejorado.
También da la impresión de que lo sacaron a las apuradas porque mucha gente se está pasando a ChatGPT/Codex..
Con
/effortel efecto que sale está divertido jajaBusqué el original de la expresión "fruto al alcance de la mano" en la traducción del comentario de Hacker News de abajo, y era esta frase:
low hanging juice to squeeze out of smaller models << el original.
Así que se puede interpretar más o menos como: hay muchos frutos al alcance de la mano, es decir, todavía hay muchísimo potencial que se puede extraer con facilidad.
Ya estuvo, ya comiste un montón, ¿no?
Comentarios en Hacker News
Parece que esta es la primera vez que Anthropic sube tres versiones menores seguidas en un modelo de frontera
Aquí las versiones en incrementos de 0.5 salieron de forma no secuencial y además trajeron saltos grandes de rendimiento, así que las considero mayores. Por ejemplo, Sonnet 3.5 u Opus 4.5
Ahora la línea Opus 4.5 ya tuvo sucesoras 4.6, 4.7 y 4.8, y según lo que se afirma, la magnitud de mejora en cada una es bastante gradual
Al usar 4.6/4.7 directamente, comparado con mi recuerdo de 4.5, no me quedó claro qué capacidades mejoraron, y la sensación fue demasiado difusa como para juzgarlo bien
Puede que mis preferencias ya estén saturadas o que el modelo ya sea más inteligente que yo y por eso ya no perciba el progreso; o al revés, quizá si corriera mi flujo de trabajo actual de 4.7 en 4.5 lo notaría de inmediato como una mejora incremental
La posición del laboratorio también se ve incómoda. Si tienen un producto mejor, ojalá lo lancen y nos dejen usarlo, pero si esta tendencia sigue, incluso si hay mejoras reales, cada vez serán menos visibles para el usuario final y pueden sentirse como reemplazos frecuentes sin recompensa
Todavía quedan varios órdenes de magnitud de fruta al alcance de la mano por extraer en modelos pequeños
Parece casi seguro que en 2 o 3 años modelos de 60~90B superarán el nivel más alto actual en tareas de programación. El diseño no está definido y probablemente no será fácil
En cambio, es mucho más incierto que haya una mejora lo bastante significativa como para justificar entrenar un modelo de 1.2T
En razonamiento, viendo la reciente publicación de GRAM, el margen de mejora que puede añadirse a modelos pequeños podría incluso ser de cuatro órdenes de magnitud
Google, OpenAI y Anthropic podrían entrenar en pocos días un modelo basado en GRAM de 30B, y ese modelo podría razonar en local mejor que los mejores modelos actuales de más de 1T parámetros. Si además se escala en pocos días a un modelo MoE de unos 600B, también podría igualar a los mejores modelos en conocimiento general
Los modelos de 1T+ parámetros no pueden entrenarse tan rápido. Cuánto mejora realmente GRAM es una variable enorme, pero parece poco probable que el efecto sea trivial o irrelevante
Los modelos grandes ya pueden decirte casi cualquier cosa. Mientras sigan siendo LLM, no van a acertar todo
No parece que quede mucho más por exprimir de que Gemini te diga con precisión la estatura de Ke$ha o en qué momento Brittney Spears fue a la cárcel por última vez
Personalmente, siento que desde el lanzamiento de 4.5 la mejora en productividad vino más por mejoras del harness y por la ventana de contexto ampliada de 200k a 1M que por el modelo en sí. Me pasó con cc, cursor cli, codex, opencode, etc.
La inteligencia “pura” del modelo o su capacidad de tomar buenas decisiones se siente estancada desde 4.5. Puede que 4.6 haya mejorado un poco, pero fue difícil distinguirlo del efecto del aprendizaje en contexto con la ventana de 1M, y 4.7 a mí y a mis colegas nos pareció más bien una regresión en criterio, tomando de forma consistente decisiones peores y más flojas
Detrás de las nuevas funciones de control expuestas al usuario final, probablemente haya subcontroles internos mucho más granulares que permitan metaajustes por tipo de usuario
Me refiero a controles más finos del esfuerzo, “dynamic workflow”, controles de velocidad como “fast mode”. Se empaquetan como funciones para el usuario, pero también parecen perillas de backend para equilibrar costos, margen, ARR, crecimiento de usuarios y retención, con tal de cumplir métricas clave en reportes trimestrales después del IPO
Hasta ahora, Opus 4.8 también parece ir en esa dirección. Es demasiado lento para ser usable, aunque podría deberse a problemas de rollout del día de lanzamiento. Las pruebas completas de Opus 4.8 siguen en curso
Los datos están en https://gertlabs.com/rankings
Me parece refrescante la actitud de “los usuarios sentirán que Opus 4.8 es una mejora moderada pero perceptible frente a la versión anterior”
También confirmé que en la UI web se puede desactivar adaptive thinking, y eso está bien. Había muchos casos donde el thinking no funcionaba y la salida del modelo terminaba siendo pésima
Qué bueno que por fin se puede apagar. Si en realidad siempre se pudo, sería un poco vergonzoso
Yo me fijo sobre todo en investigación web, y Opus 4.7 retrocedió frente a Opus 4.6 en BrowseComp, y también en uso real
Opus 4.8 mejoró muchísimo frente a 4.7 y 4.6, y la búsqueda web es uno de los casos de uso clave en un chatbot
Algo como: otros proveedores de modelos hacen una gran actualización cada x meses, pero nosotros hacemos actualizaciones graduales cada x/2 meses
Para mí es más importante cómo reacciona CC a los flags de 4.6 “solo” relacionados con thinking, y por ahora no parece estar sobrescribiendo mi configuración
Esperaba que con este cambio se acercara a ese nivel, pero al probarlo directamente todavía no
Si fuera ChatGPT, buscaría rápido para verificar los hechos y responder una pregunta factual simple; Claude, incluso con el modelo nuevo y thinking high, responde “¡Buena pregunta!” y luego inventa una respuesta por completo. A diferencia de GPT, no reconoce por sí solo que necesita buscar, y hasta para hechos básicos hay que indicarle explícitamente que busque
La parte de Claude Mythos Preview que dice que “planean lanzar un nuevo tipo de modelo con una inteligencia superior a Opus” parece más interesante que la versión 4.8
Como parte de Project Glasswing, unas pocas organizaciones lo están usando para tareas de ciberseguridad, y dicen que un modelo de ese nivel necesita salvaguardas de ciberseguridad más fuertes antes de hacerse público en general
El hecho de que se acerque una IPO seguramente también se reflejará de forma clara en sus declaraciones públicas. Siendo justos, eso también es parte de su responsabilidad
Puede que la razón del retraso del modelo no sea “lo estamos haciendo seguro”, sino “no sabemos cómo alojar esto a gran escala o de forma rentable”
GPT 5.5 ya parecía ser tan hábil como Mythos para encontrar vulnerabilidades
Por último, la gente no experta subestima muchísimo la importancia del harness en el rendimiento de los modelos. OpenHands existe desde mucho antes que Claude Code, pero Claude Code cambió el juego por su forma inteligente de asistencia. Es muy posible que Mythos sea más que solo un modelo
Frente a los modelos competitivos chinos actuales, Sonnet y Haiku parecen estar bastante atrás en relación precio-rendimiento
Entonces me pregunto si están haciendo lo mismo con Mythos, y si el Mythos que recibiremos será una versión debilitada en ese aspecto
Más precisamente, da la impresión de que Mythos estará dividido en dos versiones, y que la más aterradora seguirá requiriendo un montón de papeleo
/mythos-security-auditOjalá la gente común no termine excluida del acceso de esa manera
Probé generar un pelícano en bicicleta tanto con thinking level low como high
https://gist.github.com/simonw/68560eddb0b268a8417f80ceb7304dc6?permalink_comment_id=6172953#gistcomment-6172953
El resultado de high es claramente mejor. A diferencia de low, la forma del cuadro de la bicicleta sí está bien
El resultado comparable de Opus 4.7 está aquí: https://gist.github.com/simonw/afcb19addf3f38eb1996e1ebe749c118?permalink_comment_id=6104087#gistcomment-6104087
El manubrio no está girando la rueda delantera, está girando el cuadro. El manubrio debería estar montado en línea con la rueda delantera
Ojalá 4.9 lea mi comentario
https://www.gianlucagimini.it/portfolio-item/velocipedia/
Los humanos también pueden dibujar bastante mal una bicicleta
https://tools.simonwillison.net/markdown-svg-renderer#url=https%3A%2F%2Fgist.github.com%2Fsimonw%2Ffea4f7546626d627862dc241a4e3a86a
Mi benchmark de codificación favorito para modelos de frontera es hacer que creen un juego de estrategia en tiempo real simple en un solo archivo (js/html/css).
Claude Code + Opus 4.8 en modo ultracode lo logró de verdad, y fue el mejor resultado hasta ahora.
https://bsky.app/profile/senko.net/post/3mmwnrkwboc2v
El prompt fue: “Haz un juego RTS simple pero funcional, como los viejos WarCraft, StarCraft y Command & Conquer. El jugador debe poder construir edificios, crear unidades, recolectar recursos y revelar todo el mapa. No se necesita IA ni multijugador. Usa gráficos simples pero atractivos. Sin sonido. Implementa todo en HTML/CSS/JS y hazlo en un solo archivo. Se permite usar bibliotecas o frameworks js/css de terceros vía CDN”.
También es interesante que el estilo visual se parezca bastante a las que me ha hecho a mí.
Me pregunto quién revisa estos lanzamientos y luego se pone a seleccionar a conveniencia métricas arbitrarias que otras empresas probablemente eligieron para hacer que su modelo se vea bien.
Se siente como si hubiera unos 8 millones de benchmarks. En cada lanzamiento, cada modelo elige al azar entre 5 y 10 y muestra que ganó en todos menos uno; parece que quieren fingir que no están eligiendo al azar benchmarks que probablemente fueron maximizados para benchmarkear bien.
No conozco la metodología exacta, pero cuando programo cosas cotidianas con modelos Claude/GPT, los resultados que reportan coinciden con mi impresión cualitativa.
De las métricas reportadas en 4.7, en 4.8 quitaron BrowseComp, CharXiv Reasoning, CyberGym, GPQA Diamond, MCP Atlas, MMMLU y SWE-bench Verified. Las últimas 4 casi siempre se mencionaban en lanzamientos anteriores de Opus.
¿Qué significa exactamente “5% más inteligente”? Mi experiencia de uso puede ser distinta. Mejor probarlo uno mismo.
No creo que Anthropic esté apuntando internamente a mejorar benchmarks específicos. Más bien es una forma de visualizar el progreso, y por dentro seguramente tienen métricas mucho más complejas.
En los resultados iniciales de ArtificialAnalysis.ai, GPT 5.5 todavía parece tener mejor rendimiento por precio.
OpenAI usa alrededor de 50% menos tokens de salida para resolver tareas.
https://artificialanalysis.ai/?intelligence=coding-index&intelligence-efficiency=intelligence-efficiency-vs-output-tokens&models=gpt-5-5%2Cgpt-5-5-pro%2Cgemini-3-1-pro-preview%2Cclaude-opus-4-8%2Cclaude-opus-4-7%2Cnvidia-nemotron-3-super-120b-a12b
Creo que solo cambiaría si Claude se volviera mucho más caro.
Me alegró ver en la página 102 de la system card una evaluación sobre destreza creativa.
En nuestro trabajo les pedimos a varias IA de frontera que diseñaran una API necesaria, y comparamos Opus 4.7, GPT-5.5 y otras. Opus 4.7 produjo el diseño de API más creativo e inteligente, y me sorprendió gratamente, sobre todo porque GPT-5.5 va por delante en varios benchmarks de coding.
Sentí que no existe un benchmark común que mida la “creatividad” y la “originalidad”, y que ese tipo de benchmark en algunos aspectos incluso podría entrar en conflicto con el típico IFBench.
Aun así, es una capacidad muy importante en diseño de sistemas. Me alegra que Anthropic le preste atención, y ojalá también aparezca un benchmark público para que otros modelos puedan compararse.
https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf
5.5 es mucho mejor que ambos programando, pero es más caro. Así que hago que 4.7 se encargue de la planificación/arquitectura, 4.6 de la codificación, y luego 5.5 critique y corrija.
GPT se siente como un robot que recibe instrucciones y las ejecuta tal cual, mientras que Opus a veces da ideas realmente buenas y hasta rebate las malas, casi como un humano.
Así que por ahora divido: Opus para planificación/arquitectura/estrategia, GPT para coding puro.
En coding de tipo agente también ayuda que GPT tenga un margen de tokens disponible más grande.
Lamentablemente, parece que esta versión del backend o la nueva versión de CC dejó a Claude Code completamente roto.
El error de “no se pueden modificar los thinking blocks” está volviendo inservibles las sesiones largas: https://github.com/anthropics/claude-code/issues?q=is%3Aissue%20state%3Aopen%20blocks%20modified
stablede 4.7Lo resolví haciendo que Claude generara un script de recuperación para deshacer la sesión rota, pero puede variar según el entorno
https://gist.github.com/robertfw/993dbe8643c4fbdf12005dff2eca1f90
/rewindy seguirEn mis pruebas, Opus 4.8 es un poco peor y cuesta casi el doble que Opus 4.7
Me sorprendió que fallara en una prueba de extracción de datos. En 2 de 3 intentos acierta, pero una vez devuelve aleatoriamente algún valor como null
Hasta cierto punto entiendo que falle más en tareas de trivia o conocimiento especializado de dominio. Parece que los modelos cada vez se entrenan más hacia casos de uso agénticos que hacia inteligencia general
https://aibenchy.com/compare/anthropic-claude-opus-4-7-medium/anthropic-claude-opus-4-8-medium/
Estoy revisando otra vez el test harness, pero como es el primer modelo que se comporta así, no creo que el problema sea de mi lado
Edit: parece que el harness está bien, y en tareas de programación puras el rendimiento es igual: https://i.snipboard.io/5xbpzY.jpg
“Claude Opus 4.8 is available everywhere today. Pricing for regular usage is unchanged from Opus 4.7: $5 per million input tokens and $25 per million output tokens. Pricing for fast mode is $10 per million input tokens and $50 per million output tokens.”
Me pregunto de dónde sale eso de que cuesta el doble