12 puntos por flyingsquirrel 11 일 전 | 11 comentarios | Compartir por WhatsApp

Anthropic lanzó Claude Opus 4.8, una versión mejorada de su modelo insignia Claude Opus. Basado en la versión anterior 4.7, mejora el rendimiento en benchmarks y refuerza las capacidades de colaboración, mientras mantiene el mismo precio.

Principales mejoras y características

  • Mejor rendimiento: muestra un desempeño superior al del modelo anterior y al de modelos competidores como GPT-5.5 en tareas de programación, habilidades de agentes, razonamiento y conocimiento práctico.
  • Mayor honestidad (Honesty): se mejoró el problema de que la IA haga afirmaciones sin fundamento o llegue a conclusiones precipitadas. Opus 4.8 señala por sí mismo las partes inciertas, y la probabilidad de pasar por alto defectos en el código se redujo aproximadamente 4 veces frente al modelo anterior.
  • Capacidades de agente confiables: según pruebas iniciales, su criterio se volvió más fino al realizar tareas complejas de múltiples pasos, y muestra mejores capacidades de colaboración al detectar sus propios errores y cuestionar planes cuando no son válidos.
  • Eficiencia de costos: la velocidad de 'Fast Mode' aumentó 2.5 veces, y el costo se redujo a una tercera parte frente al modelo anterior.

Nuevas funciones lanzadas junto con el modelo

  • Dynamic Workflows: función en research preview de Claude Code que permite ejecutar cientos de subagentes en paralelo para realizar tareas complejas, como migraciones de grandes bases de código.
  • Effort Control: permite al usuario elegir el nivel de esfuerzo que Claude dedicará a una tarea. Con una configuración alta, piensa más a fondo para ofrecer respuestas de mayor calidad; con una baja, responde más rápido.
  • Actualización de la Messages API: ahora se pueden incluir entradas del sistema dentro del arreglo de mensajes, lo que permite actualizar instrucciones a mitad de una tarea sin romper la caché de prompts.

Planes a futuro

Anthropic está desarrollando un modelo que ofrecerá rendimiento de nivel Opus a menor costo y, a través de Project Glasswing, prepara una nueva clase de modelos con mayor inteligencia que Opus (Claude Mythos). Actualmente está en pruebas de seguridad con algunas organizaciones y se espera que esté disponible para todos los clientes en unas semanas.

Precios y disponibilidad

  • Modo general: entrada $5 / 1M tokens, salida $25 / 1M tokens (igual que Opus 4.7)
  • Fast Mode: entrada $10 / 1M tokens, salida $50 / 1M tokens
  • Nombre del modelo: claude-opus-4-8

11 comentarios

 
jimmy2056 11 일 전

Me hace tropezar demasiado, así que al final siento que un GPT estable es mejor.
Estuve usando Claude de $200, luego me pasé a GPT $100 + Claude $100,
pero desde el próximo mes voy a usar solo $20 de Claude. Total, es solo para revisión, así que ya no necesito tanto, y si me falta, también pago AGY, así que puedo usar eso jaja

 
slowandsnow 10 일 전

¿Por qué abandonan a Sonnet y Haiku? ¿Están pensando demasiado solo en competir con GPT?

 
jessyt 10 일 전

Dicen que la variante de fast mode funciona 2.5 veces más rápido que antes y cuesta 3 veces menos.

 
hhcrux 11 일 전

Tengo la suscripción de Claude rebajada a Pro y estoy usando GPT, pero como tenía algo en marcha le pedí que hiciera una revisión; el cupo de uso de Pro se me derritió por completo en apenas 10 minutos y se detuvo.
¡Impresionante, Claude!

 
dhkd63 11 일 전

Durante la mañana, en mi caso he estado usando una habilidad para organizar reuniones o transcripciones grabadas, y al probar esto en 4.8 cambiando el esfuerzo a ultracode, resultó bastante mejor de lo que esperaba. Personalmente, siento que muestra una tendencia parecida a Codex. La eficiencia de tokens todavía está por debajo de Codex, pero la ventana de contexto es bastante generosa, y además por el workflow también cambió un poco la pantalla del subagente, y esa parte también me gusta.

 
dunward 11 일 전

La 4.7 de verdad se sentía tan difícil de usar que era casi insoportable; ojalá que la 4.8 sí haya mejorado.

 
sixmen 11 일 전

También da la impresión de que lo sacaron a las apuradas porque mucha gente se está pasando a ChatGPT/Codex..

 
sea715 11 일 전

Con /effort el efecto que sale está divertido jaja

 
codufdl 11 일 전

Busqué el original de la expresión "fruto al alcance de la mano" en la traducción del comentario de Hacker News de abajo, y era esta frase:
low hanging juice to squeeze out of smaller models << el original.
Así que se puede interpretar más o menos como: hay muchos frutos al alcance de la mano, es decir, todavía hay muchísimo potencial que se puede extraer con facilidad.

 
iolothebard 11 일 전

Ya estuvo, ya comiste un montón, ¿no?

 
GN⁺ 11 일 전
Comentarios en Hacker News
  • Parece que esta es la primera vez que Anthropic sube tres versiones menores seguidas en un modelo de frontera
    Aquí las versiones en incrementos de 0.5 salieron de forma no secuencial y además trajeron saltos grandes de rendimiento, así que las considero mayores. Por ejemplo, Sonnet 3.5 u Opus 4.5
    Ahora la línea Opus 4.5 ya tuvo sucesoras 4.6, 4.7 y 4.8, y según lo que se afirma, la magnitud de mejora en cada una es bastante gradual
    Al usar 4.6/4.7 directamente, comparado con mi recuerdo de 4.5, no me quedó claro qué capacidades mejoraron, y la sensación fue demasiado difusa como para juzgarlo bien
    Puede que mis preferencias ya estén saturadas o que el modelo ya sea más inteligente que yo y por eso ya no perciba el progreso; o al revés, quizá si corriera mi flujo de trabajo actual de 4.7 en 4.5 lo notaría de inmediato como una mejora incremental
    La posición del laboratorio también se ve incómoda. Si tienen un producto mejor, ojalá lo lancen y nos dejen usarlo, pero si esta tendencia sigue, incluso si hay mejoras reales, cada vez serán menos visibles para el usuario final y pueden sentirse como reemplazos frecuentes sin recompensa

    • No me sorprendería que la próxima generación de modelos de frontera fuera la última
      Todavía quedan varios órdenes de magnitud de fruta al alcance de la mano por extraer en modelos pequeños
      Parece casi seguro que en 2 o 3 años modelos de 60~90B superarán el nivel más alto actual en tareas de programación. El diseño no está definido y probablemente no será fácil
      En cambio, es mucho más incierto que haya una mejora lo bastante significativa como para justificar entrenar un modelo de 1.2T
      En razonamiento, viendo la reciente publicación de GRAM, el margen de mejora que puede añadirse a modelos pequeños podría incluso ser de cuatro órdenes de magnitud
      Google, OpenAI y Anthropic podrían entrenar en pocos días un modelo basado en GRAM de 30B, y ese modelo podría razonar en local mejor que los mejores modelos actuales de más de 1T parámetros. Si además se escala en pocos días a un modelo MoE de unos 600B, también podría igualar a los mejores modelos en conocimiento general
      Los modelos de 1T+ parámetros no pueden entrenarse tan rápido. Cuánto mejora realmente GRAM es una variable enorme, pero parece poco probable que el efecto sea trivial o irrelevante
      Los modelos grandes ya pueden decirte casi cualquier cosa. Mientras sigan siendo LLM, no van a acertar todo
      No parece que quede mucho más por exprimir de que Gemini te diga con precisión la estatura de Ke$ha o en qué momento Brittney Spears fue a la cárcel por última vez
    • 4.7 fue la primera versión en la que, para la mayoría de los usos, tuve que volver a 4.6, la versión anterior. Ojalá 4.8 corrija eso
    • Me da curiosidad si alguien sintió una mejora significativa o visible en flujos de trabajo de programación entre 4.5 y 4.7
      Personalmente, siento que desde el lanzamiento de 4.5 la mejora en productividad vino más por mejoras del harness y por la ventana de contexto ampliada de 200k a 1M que por el modelo en sí. Me pasó con cc, cursor cli, codex, opencode, etc.
      La inteligencia “pura” del modelo o su capacidad de tomar buenas decisiones se siente estancada desde 4.5. Puede que 4.6 haya mejorado un poco, pero fue difícil distinguirlo del efecto del aprendizaje en contexto con la ventana de 1M, y 4.7 a mí y a mis colegas nos pareció más bien una regresión en criterio, tomando de forma consistente decisiones peores y más flojas
    • Creo que estas liberaciones incrementales más frecuentes también podrían servir para desplegar nuevas funciones que Anthropic usa para controlar costos y ajustar el consumo de recursos
      Detrás de las nuevas funciones de control expuestas al usuario final, probablemente haya subcontroles internos mucho más granulares que permitan metaajustes por tipo de usuario
      Me refiero a controles más finos del esfuerzo, “dynamic workflow”, controles de velocidad como “fast mode”. Se empaquetan como funciones para el usuario, pero también parecen perillas de backend para equilibrar costos, margen, ARR, crecimiento de usuarios y retención, con tal de cumplir métricas clave en reportes trimestrales después del IPO
    • En nuestras pruebas, 4.5/4.6 fueron más o menos similares. Opus 4.7 es más inteligente, pero por varios problemas de personalidad es difícil usarlo en producto
      Hasta ahora, Opus 4.8 también parece ir en esa dirección. Es demasiado lento para ser usable, aunque podría deberse a problemas de rollout del día de lanzamiento. Las pruebas completas de Opus 4.8 siguen en curso
      Los datos están en https://gertlabs.com/rankings
  • Me parece refrescante la actitud de “los usuarios sentirán que Opus 4.8 es una mejora moderada pero perceptible frente a la versión anterior”
    También confirmé que en la UI web se puede desactivar adaptive thinking, y eso está bien. Había muchos casos donde el thinking no funcionaba y la salida del modelo terminaba siendo pésima
    Qué bueno que por fin se puede apagar. Si en realidad siempre se pudo, sería un poco vergonzoso

    • Ese switch probablemente siempre estuvo ahí, pero si lo apagas no se comporta como uno quisiera. Desactiva por completo el thinking
    • Sí se siente refrescante, pero esta vez esa descripción quizá hasta se quede corta
      Yo me fijo sobre todo en investigación web, y Opus 4.7 retrocedió frente a Opus 4.6 en BrowseComp, y también en uso real
      Opus 4.8 mejoró muchísimo frente a 4.7 y 4.6, y la búsqueda web es uno de los casos de uso clave en un chatbot
    • Me pregunto si estas releases pequeñas buscan que los usuarios se acostumbren a un ciclo de actualizaciones más gradual
      Algo como: otros proveedores de modelos hacen una gran actualización cada x meses, pero nosotros hacemos actualizaciones graduales cada x/2 meses
    • Al cambiar el modelo de 4.6 a 4.8 extra, creo que probablemente me topé con un bug falso al apagar Adaptive, pero al intentarlo otra vez parece funcionar como estaba previsto
      Para mí es más importante cómo reacciona CC a los flags de 4.6 “solo” relacionados con thinking, y por ahora no parece estar sobrescribiendo mi configuración
    • Esperaba que la UI web mejorara más. En términos de valores, Anthropic me gusta más que OpenAI, así que quiero usar su producto, pero el modo thinking de ChatGPT era mucho mejor que claude.ai
      Esperaba que con este cambio se acercara a ese nivel, pero al probarlo directamente todavía no
      Si fuera ChatGPT, buscaría rápido para verificar los hechos y responder una pregunta factual simple; Claude, incluso con el modelo nuevo y thinking high, responde “¡Buena pregunta!” y luego inventa una respuesta por completo. A diferencia de GPT, no reconoce por sí solo que necesita buscar, y hasta para hechos básicos hay que indicarle explícitamente que busque
  • La parte de Claude Mythos Preview que dice que “planean lanzar un nuevo tipo de modelo con una inteligencia superior a Opus” parece más interesante que la versión 4.8
    Como parte de Project Glasswing, unas pocas organizaciones lo están usando para tareas de ciberseguridad, y dicen que un modelo de ese nivel necesita salvaguardas de ciberseguridad más fuertes antes de hacerse público en general

    • Más que “más interesante”, hay una sospecha bastante extendida de que eso de “Mythos es demasiado peligroso para darle acceso al público” es un tipo de mala noticia autogenerada muy propio del marketing de Dario
      El hecho de que se acerque una IPO seguramente también se reflejará de forma clara en sus declaraciones públicas. Siendo justos, eso también es parte de su responsabilidad
      Puede que la razón del retraso del modelo no sea “lo estamos haciendo seguro”, sino “no sabemos cómo alojar esto a gran escala o de forma rentable”
      GPT 5.5 ya parecía ser tan hábil como Mythos para encontrar vulnerabilidades
      Por último, la gente no experta subestima muchísimo la importancia del harness en el rendimiento de los modelos. OpenHands existe desde mucho antes que Claude Code, pero Claude Code cambió el juego por su forma inteligente de asistencia. Es muy posible que Mythos sea más que solo un modelo
    • Con esto, parece que le quitarán a Claude Pro el acceso al modelo más grande. Da la impresión de que para usar un modelo más grande que Opus habrá que tener al menos una suscripción Claude Max
    • Más interesante que eso es la parte donde dicen que están desarrollando y lanzando modelos de menor costo que ofrecen muchas de las mismas capacidades que Opus
      Frente a los modelos competitivos chinos actuales, Sonnet y Haiku parecen estar bastante atrás en relación precio-rendimiento
    • En las notas de lanzamiento de Opus 4.7 dijeron que redujeron intencionalmente sus capacidades de ciberseguridad https://www.anthropic.com/news/claude-opus-4-7
      Entonces me pregunto si están haciendo lo mismo con Mythos, y si el Mythos que recibiremos será una versión debilitada en ese aspecto
      Más precisamente, da la impresión de que Mythos estará dividido en dos versiones, y que la más aterradora seguirá requiriendo un montón de papeleo
    • Parece insinuar que, a menos que seas multimillonario o una empresa valuada en decenas de miles de millones de dólares, quizá solo recibirás algo como un comando slash limitado y debilitado de Claude Code, /mythos-security-audit
      Ojalá la gente común no termine excluida del acceso de esa manera
  • Probé generar un pelícano en bicicleta tanto con thinking level low como high
    https://gist.github.com/simonw/68560eddb0b268a8417f80ceb7304dc6?permalink_comment_id=6172953#gistcomment-6172953
    El resultado de high es claramente mejor. A diferencia de low, la forma del cuadro de la bicicleta sí está bien
    El resultado comparable de Opus 4.7 está aquí: https://gist.github.com/simonw/afcb19addf3f38eb1996e1ebe749c118?permalink_comment_id=6104087#gistcomment-6104087

    • La forma del cuadro de la bicicleta no está bien. El manubrio está mal
      El manubrio no está girando la rueda delantera, está girando el cuadro. El manubrio debería estar montado en línea con la rueda delantera
      Ojalá 4.9 lea mi comentario
    • Siento que voy a compartir este enlace cada vez que alguien publique algo sobre bicicletas, pero como todavía no lo veía en este hilo, lo dejo
      https://www.gianlucagimini.it/portfolio-item/velocipedia/
      Los humanos también pueden dibujar bastante mal una bicicleta
    • Se agradece que en el nivel de “high thinking” le agreguen casco. Siempre es una decisión sensata
    • Aquí están los resultados del pelícano para todos los niveles de thinking: low, medium, high, xhigh, max
      https://tools.simonwillison.net/markdown-svg-renderer#url=https%3A%2F%2Fgist.github.com%2Fsimonw%2Ffea4f7546626d627862dc241a4e3a86a
    • No entiendo cómo se puede decir que es una “forma correcta” cuando el cuadro no tiene tubo de dirección
  • Mi benchmark de codificación favorito para modelos de frontera es hacer que creen un juego de estrategia en tiempo real simple en un solo archivo (js/html/css).
    Claude Code + Opus 4.8 en modo ultracode lo logró de verdad, y fue el mejor resultado hasta ahora.
    https://bsky.app/profile/senko.net/post/3mmwnrkwboc2v
    El prompt fue: “Haz un juego RTS simple pero funcional, como los viejos WarCraft, StarCraft y Command & Conquer. El jugador debe poder construir edificios, crear unidades, recolectar recursos y revelar todo el mapa. No se necesita IA ni multijugador. Usa gráficos simples pero atractivos. Sin sonido. Implementa todo en HTML/CSS/JS y hazlo en un solo archivo. Se permite usar bibliotecas o frameworks js/css de terceros vía CDN”.

    • Me pregunto si existe una tabla de posiciones para este tipo de pruebas. Si a Opus 4.8 y a GPT 5.5 les dieras una puntuación sobre 100, ¿cuánto sacarían?
    • El código casi parece código minificado. Los nombres de variables son cortos y da la impresión de que intenta minimizar los espacios; ¿lo escribió por sí mismo en ese formato comprimido?
    • Es útil que también hayas compartido el prompt. Yo también he estado probando cosas parecidas haciéndoselas crear a Claude.
      También es interesante que el estilo visual se parezca bastante a las que me ha hecho a mí.
    • Me gusta este benchmark. Si subieran los resultados a GitHub Pages, la gente podría probar los juegos directamente.
    • Me pregunto dónde guardan una colección de apps benchmark como esta. En particular, me gustaría ver la diferencia relativa de costos entre modelos en casos de uso como este.
  • Me pregunto quién revisa estos lanzamientos y luego se pone a seleccionar a conveniencia métricas arbitrarias que otras empresas probablemente eligieron para hacer que su modelo se vea bien.
    Se siente como si hubiera unos 8 millones de benchmarks. En cada lanzamiento, cada modelo elige al azar entre 5 y 10 y muestra que ganó en todos menos uno; parece que quieren fingir que no están eligiendo al azar benchmarks que probablemente fueron maximizados para benchmarkear bien.

    • https://arena.ai/leaderboard me parece un proveedor de rankings bastante decente.
      No conozco la metodología exacta, pero cuando programo cosas cotidianas con modelos Claude/GPT, los resultados que reportan coinciden con mi impresión cualitativa.
    • Es interesante que esta vez solo incluyeran 6 métricas. Opus 4.7 tenía 12 y 4.6 tenía 13.
      De las métricas reportadas en 4.7, en 4.8 quitaron BrowseComp, CharXiv Reasoning, CyberGym, GPQA Diamond, MCP Atlas, MMMLU y SWE-bench Verified. Las últimas 4 casi siempre se mencionaban en lanzamientos anteriores de Opus.
    • Todos los benchmarks hay que tomarlos con cierto filtro. Yo casi no los uso.
      ¿Qué significa exactamente “5% más inteligente”? Mi experiencia de uso puede ser distinta. Mejor probarlo uno mismo.
      No creo que Anthropic esté apuntando internamente a mejorar benchmarks específicos. Más bien es una forma de visualizar el progreso, y por dentro seguramente tienen métricas mucho más complejas.
    • Relacionado con eso, me pregunto si existe algún agregador de benchmarks que reúna todos los benchmarks en una sola gran cuadrícula.
    • Al menos, a diferencia de OpenAI, no fingen que no existen competidores y sí muestran modelos rivales en cada benchmark.
  • En los resultados iniciales de ArtificialAnalysis.ai, GPT 5.5 todavía parece tener mejor rendimiento por precio.
    OpenAI usa alrededor de 50% menos tokens de salida para resolver tareas.
    https://artificialanalysis.ai/?intelligence=coding-index&intelligence-efficiency=intelligence-efficiency-vs-output-tokens&models=gpt-5-5%2Cgpt-5-5-pro%2Cgemini-3-1-pro-preview%2Cclaude-opus-4-8%2Cclaude-opus-4-7%2Cnvidia-nemotron-3-super-120b-a12b

    • Pruebo Codex cada vez que sale una nueva versión, pero no termina de encajarme. Así que no es algo cierto para todo el mundo.
      Creo que solo cambiaría si Claude se volviera mucho más caro.
  • Me alegró ver en la página 102 de la system card una evaluación sobre destreza creativa.
    En nuestro trabajo les pedimos a varias IA de frontera que diseñaran una API necesaria, y comparamos Opus 4.7, GPT-5.5 y otras. Opus 4.7 produjo el diseño de API más creativo e inteligente, y me sorprendió gratamente, sobre todo porque GPT-5.5 va por delante en varios benchmarks de coding.
    Sentí que no existe un benchmark común que mida la “creatividad” y la “originalidad”, y que ese tipo de benchmark en algunos aspectos incluso podría entrar en conflicto con el típico IFBench.
    Aun así, es una capacidad muy importante en diseño de sistemas. Me alegra que Anthropic le preste atención, y ojalá también aparezca un benchmark público para que otros modelos puedan compararse.
    https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf

    • A mí también me da la impresión de que 4.6 es mejor coder que 4.7. 4.7 piensa estratégicamente mucho mejor y en general mantiene un mejor sentido de arquitectura que 5.5.
      5.5 es mucho mejor que ambos programando, pero es más caro. Así que hago que 4.7 se encargue de la planificación/arquitectura, 4.6 de la codificación, y luego 5.5 critique y corrija.
    • Yo siento algo parecido. Para tareas de planificación, estrategia y arquitectura, Opus 4.7 es muchísimo mejor que GPT-5.5.
      GPT se siente como un robot que recibe instrucciones y las ejecuta tal cual, mientras que Opus a veces da ideas realmente buenas y hasta rebate las malas, casi como un humano.
      Así que por ahora divido: Opus para planificación/arquitectura/estrategia, GPT para coding puro.
      En coding de tipo agente también ayuda que GPT tenga un margen de tokens disponible más grande.
  • Lamentablemente, parece que esta versión del backend o la nueva versión de CC dejó a Claude Code completamente roto.
    El error de “no se pueden modificar los thinking blocks” está volviendo inservibles las sesiones largas: https://github.com/anthropics/claude-code/issues?q=is%3Aissue%20state%3Aopen%20blocks%20modified

    • Este problema también ocurría en la rama stable de 4.7
      Lo resolví haciendo que Claude generara un script de recuperación para deshacer la sesión rota, pero puede variar según el entorno
      https://gist.github.com/robertfw/993dbe8643c4fbdf12005dff2eca1f90
    • Parece que las actualizaciones de CC no se prueban antes del lanzamiento. Los equipos internos que usan el producto o el feedback público terminan haciendo de prueba
    • No sé si ayude, pero en algunos casos leves pude recuperarlo con /rewind y seguir
    • A mí me pasa lo mismo. Que esto ocurra justo en el momento en que despliegan un modelo nuevo no se ve nada bien
    • Es parte del encanto de trabajar con Claude. Cada vez que lanzan algo nuevo, se te rompe todo
  • En mis pruebas, Opus 4.8 es un poco peor y cuesta casi el doble que Opus 4.7
    Me sorprendió que fallara en una prueba de extracción de datos. En 2 de 3 intentos acierta, pero una vez devuelve aleatoriamente algún valor como null
    Hasta cierto punto entiendo que falle más en tareas de trivia o conocimiento especializado de dominio. Parece que los modelos cada vez se entrenan más hacia casos de uso agénticos que hacia inteligencia general
    https://aibenchy.com/compare/anthropic-claude-opus-4-7-medium/anthropic-claude-opus-4-8-medium/

    • Siento que todo está al doble. El costo al doble, el tiempo promedio de respuesta al doble, y los tokens de razonamiento y salida al doble
      Estoy revisando otra vez el test harness, pero como es el primer modelo que se comporta así, no creo que el problema sea de mi lado
      Edit: parece que el harness está bien, y en tareas de programación puras el rendimiento es igual: https://i.snipboard.io/5xbpzY.jpg
    • ¿No dice la entrada del blog que el precio es el mismo que 4.7?
      “Claude Opus 4.8 is available everywhere today. Pricing for regular usage is unchanged from Opus 4.7: $5 per million input tokens and $25 per million output tokens. Pricing for fast mode is $10 per million input tokens and $50 per million output tokens.”
      Me pregunto de dónde sale eso de que cuesta el doble
    • Lanzar un modelo nuevo se convirtió en una nueva forma de subir precios jaja