Presentan Claude 4: Opus 4 y Sonnet 4

(anthropic.com)

1 puntos por GN⁺ 2025-05-23 | 1 comentarios | Compartir por WhatsApp

Anthropic presentó Claude Opus 4 y Claude Sonnet 4, destacando la programación, el razonamiento avanzado y las tareas de agentes de IA como las áreas centrales de rendimiento de la próxima generación de Claude
Ambos modelos son modelos híbridos que alternan entre respuestas inmediatas y razonamiento profundo, y admiten uso de herramientas como búsqueda web y ejecución paralela de herramientas durante el pensamiento extendido
Opus 4 registró 72.5% en SWE-bench y 43.2% en Terminal-bench, y Sonnet 4 alcanzó 72.7% en SWE-bench, mejorando programación, razonamiento y seguimiento de instrucciones frente a Sonnet 3.7
Claude Code ya está disponible de forma general y se expande a terminal, VS Code, JetBrains, GitHub Actions y SDK, pudiendo encargarse de responder a revisiones de PR, corregir errores de CI y modificar código
A la API se añadieron una herramienta de ejecución de código, MCP connector, Files API y caché de prompts de hasta 1 hora, para que los desarrolladores puedan crear agentes de IA más potentes

Presentación de los modelos Claude 4

Anthropic presentó Claude Opus 4 y Claude Sonnet 4 como los modelos de próxima generación de Claude
El enfoque principal de ambos modelos está en programación, razonamiento avanzado y tareas de agentes de IA
Claude Opus 4 es un modelo de programación capaz de mantener rendimiento sostenido en tareas complejas y de larga duración, así como en flujos de trabajo de agentes
Claude Sonnet 4 es una mejora de Claude Sonnet 3.7, con mayor rendimiento en programación y razonamiento, y mejor precisión al seguir instrucciones

Disponibilidad y precios

Claude Opus 4 y Sonnet 4 ofrecen tanto respuestas casi instantáneas como un modo de pensamiento extendido para razonamiento más profundo
Los planes Pro, Max, Team y Enterprise de Claude incluyen ambos modelos y pensamiento extendido
Sonnet 4 también está disponible para usuarios gratuitos
Ambos modelos están disponibles en Anthropic API, Amazon Bedrock y Google Cloud Vertex AI
El precio es el mismo que el de los modelos Opus y Sonnet anteriores
- Opus 4: $15/$75 por millón de tokens de entrada/salida
- Sonnet 4: $3/$15 por millón de tokens de entrada/salida

Rendimiento de Opus 4 en programación y tareas de largo plazo

Claude Opus 4 es el modelo más potente de Anthropic, con 72.5% en SWE-bench y 43.2% en Terminal-bench
Mantiene rendimiento sostenido en trabajos de largo plazo que requieren miles de pasos de trabajo concentrado, y puede trabajar de forma continua durante horas
Cursor considera a Opus 4 un modelo de vanguardia en programación y señaló grandes avances en la comprensión de bases de código complejas
Replit indicó que aumentó la precisión en cambios complejos que abarcan varios archivos
Block explicó que, en su agente codename goose, Opus 4 fue el primer modelo que mantuvo rendimiento y confiabilidad mientras mejoraba la calidad del código durante edición y depuración
Rakuten verificó que Opus 4 mostró rendimiento sostenido ejecutándose de forma autónoma durante 7 horas en tareas exigentes de refactorización de código abierto
Cognition evaluó que Opus 4 es fuerte en tareas importantes que modelos anteriores pasaban por alto y en problemas complejos que otros modelos no pudieron resolver

Posicionamiento de Sonnet 4

Claude Sonnet 4 es una versión mejorada frente a Sonnet 3.7 y obtuvo 72.7% en SWE-bench
Apunta a equilibrar rendimiento y eficiencia para casos de uso internos y externos, y también mejora la capacidad de control en la implementación
Aunque no iguala a Opus 4 en la mayoría de las áreas, ofrece una combinación de capacidad y practicidad
GitHub planea adoptar Sonnet 4 como el modelo que impulsará el nuevo agente de programación de GitHub Copilot
Manus destacó mejoras en seguimiento de instrucciones complejas, razonamiento claro y resultados estéticos
iGent señaló mejoras en desarrollo autónomo de aplicaciones multifunción y exploración de bases de código, y dijo que los errores de exploración bajaron de 20% a casi 0
Sourcegraph evaluó que Sonnet 4 mantiene mejor la dirección durante más tiempo, entiende los problemas con mayor profundidad y ofrece código más elegante
Augment Code eligió Sonnet 4 como su prioridad principal para modelo por defecto, por su mayor tasa de éxito, edición de código más precisa y mayor cautela en tareas complejas

Mejoras en las funciones del modelo

Ambos modelos pueden usar herramientas incluso durante el pensamiento extendido
- Por ejemplo, pueden usar web search
- Claude puede alternar entre razonamiento y uso de herramientas para mejorar sus respuestas
También admiten ejecución paralela de herramientas y seguimiento de instrucciones más preciso
Si el desarrollador proporciona acceso a archivos locales, el modelo muestra una función de memoria que extrae y guarda hechos clave para mantener continuidad y conocimiento implícito
Se redujo frente a Sonnet 3.7 la tendencia a terminar tareas usando atajos o explotando vacíos
- En particular, en tareas de agentes vulnerables a atajos y vacíos, ambos modelos tienen una probabilidad 65% menor de mostrar ese comportamiento frente a Sonnet 3.7
Opus 4 es fuerte para crear y mantener memory files con información clave en aplicaciones donde el desarrollador brinda acceso a archivos locales
- Por ejemplo, genera una Navigation Guide mientras juega Pokémon
- Esto mejora el reconocimiento de tareas de largo plazo, la consistencia y el rendimiento en tareas de agentes

Resúmenes de pensamiento y Developer Mode

Los modelos Claude 4 incorporan thinking summaries, que comprimen procesos de pensamiento largos usando un modelo más pequeño
Estos resúmenes solo son necesarios en alrededor de 5% de los casos
La mayoría de los procesos de pensamiento son lo bastante cortos como para mostrarse completos
Los usuarios que necesiten la cadena de pensamiento sin procesar para ingeniería avanzada de prompts pueden consultar el nuevo Developer Mode mediante contact sales

Lanzamiento general de Claude Code

Claude Code ya está disponible de forma general y extiende Claude a terminal, IDE y flujos de trabajo en segundo plano
Las nuevas extensiones beta para VS Code y JetBrains integran Claude Code directamente en el IDE
- Las ediciones sugeridas por Claude se muestran en línea dentro de los archivos
- Los usuarios pueden revisar y rastrear cambios dentro del editor que ya conocen
- Se instala al ejecutar Claude Code en la terminal del IDE
Admite tareas en segundo plano a través de GitHub Actions
También se presentó un SDK extensible de Claude Code
- Los desarrolladores pueden crear sus propios agentes y aplicaciones usando el mismo agente central que Claude Code
Claude Code on GitHub está disponible en beta
- Se puede etiquetar a Claude Code en un PR para responder a comentarios de revisión, corregir errores de CI y modificar código
- Se instala ejecutando /install-github-app dentro de Claude Code

API y seguridad

A la API de Anthropic se añadieron cuatro funciones nuevas para desarrollo de agentes de IA
- herramienta de ejecución de código
- MCP connector
- Files API
- caché de prompts de hasta 1 hora
Los modelos Claude 4 se posicionan como un paso hacia mantener el contexto completo, conservar el enfoque en proyectos largos y realizar trabajos de gran impacto
Los modelos fueron sometidos a pruebas y evaluaciones extensas para reducir riesgos y aumentar la seguridad
Incluyen protecciones para niveles más altos de seguridad en IA, ASL-3
Los usuarios pueden comenzar en Claude, Claude Code o la plataforma de su preferencia

Forma de reportar benchmarks

Claude Opus 4 y Sonnet 4 son modelos de razonamiento híbrido, y los benchmarks publicados muestran la mejor puntuación lograda con o sin uso de pensamiento extendido
Los resultados sin pensamiento extendido corresponden a:
- SWE-bench Verified
- Terminal-bench
Los resultados con pensamiento extendido usan hasta 64K tokens
- TAU-bench
- GPQA Diamond
- MMMLU
- MMMU
- AIME
También se ofrecen algunas puntuaciones medidas sin pensamiento extendido
- GPQA Diamond: Opus 4 74.9%, Sonnet 4 70.0%
- MMMLU: Opus 4 87.4%, Sonnet 4 85.4%
- MMMU: Opus 4 73.7%, Sonnet 4 72.6%
- AIME: Opus 4 33.9%, Sonnet 4 33.1%

Metodología de TAU-bench y SWE-bench

La puntuación de TAU-bench se obtuvo en una configuración que agrega un apéndice de prompts a Airline y Retail Agent Policy, para que Claude aproveche mejor su capacidad de razonamiento durante pensamiento extendido y uso de herramientas
Se guía al modelo para que escriba sus pensamientos durante la resolución de problemas de una forma distinta al modo de pensamiento normal
Como el pensamiento adicional puede aumentar la cantidad de pasos, el máximo de pasos subió de 30 a 100
- La mayoría de las trayectorias termina en menos de 30 pasos
- Solo hubo una trayectoria que superó los 50 pasos
En SWE-bench de la familia Claude 4 se sigue usando el mismo andamiaje simple de versiones anteriores
- Las herramientas son solo dos: la herramienta bash y una herramienta de edición de archivos mediante sustitución de cadenas
- La tercera planning tool usada en Claude 3.7 Sonnet ya no se incluye
Todas las puntuaciones de modelos Claude 4 se reportan sobre el total de 500 problemas
Las puntuaciones de modelos OpenAI se reportan sobre un subconjunto de 477 problemas
Las puntuaciones de “high compute” usan cálculo en tiempo de prueba en paralelo y complejidad adicional
- Se muestrean varios intentos en paralelo
- Se descartan parches que rompen pruebas de regresión visibles del repositorio
- No se usa información de pruebas ocultas
- Un modelo interno de calificación elige el mejor candidato entre los intentos restantes
Con este método, las puntuaciones de high compute son 79.4% para Opus 4 y 80.2% para Sonnet 4

1 comentarios

GN⁺ 2025-05-23

Opiniones de Hacker News

Un punto importante que faltó en este anuncio es que el corte de entrenamiento de Claude 4 es marzo de 2025. Es el más reciente entre los modelos actuales, y Gemini 2.5 tiene corte en enero de 2025.
https://docs.anthropic.com/en/docs/about-claude/models/overv...
- Ahora todos los productos LLM principales para usuarios incluyen búsqueda web, y también está disponible en algunas API o a veces es posible de forma no intencional, así que al menos personalmente siento que el mes exacto de corte importa cada vez menos.
  Los modelos que uso seguido son lo bastante inteligentes como para decidir por sí mismos que necesitan información nueva sobre cierto tema y traerla.
- Qué bien. Tal vez por fin conozca Svelte 5.
- Como una vez sufrí porque Claude no conocía Tailwind 4, le pregunté sobre Tailwind CSS, y respondió que conocía hasta Tailwind CSS 3.4, la versión estable más reciente según su corte de enero de 2025.
- ¿Por qué no pueden hacer que aprenda continuamente?
- Aun así, no sabemos qué se actualizó y qué no. ¿Podemos asumir que se actualizó todo lo que era posible actualizar?
“GitHub says Claude Sonnet 4 soars in agentic scenarios and will introduce it as the base model for the new coding agent in GitHub Copilot.”
Este modelo podría acercarnos al sueño de que “Assign to CoPilot” se encargue automáticamente de la mayoría de los trabajos mecánicos, como actualizar paquetes. Si baja la carga de mantenimiento, también es muy probable que lleve al resurgimiento de proyectos antiguos.
- Puede ser, pero todos los modelos anteriores recibieron la misma expectativa cuando salieron.
- Tengo muchas ganas de ver qué pueden hacer los agentes de coding baratos por el open source. De hecho, me dan ganas de repartir créditos de CheepCode[0] a proyectos open source.
  Todavía no hay una estructura oficial, pero si ves este comentario y necesitas ejecuciones gratuitas de un agente de coding, mándame un correo y te lo configuro.
  [0] Mi producto de agente de coding headless, parecido a “assign to copilot”, pero procesa varias tareas en paralelo desde tableros de trabajo como Linear y Jira. Hasta ahora ha tenido bastante éxito con funcionalidades simples y repetitivas, y en general, mientras mejores sean las pruebas, mejor sale el código resultante. Por supuesto, también puede escribir sus propias pruebas, y de hecho lo hace.
- Ese es exactamente mi criterio para decidir si estos modelos son útiles. Tengo un proyecto que necesita una refactorización a gran escala para volver a funcionar; principalmente son actualizaciones de paquetes, pero también hay que ajustar el código a nuevas semánticas del lenguaje que no existían cuando se escribió.
  Los modelos de IA actuales prácticamente no logran ningún avance en esta tarea. Pienso seguir probando hasta que sea posible.
- Las actualizaciones de paquetes y las tareas mecánicas ya son un terreno resuelto en gran medida con bots.
  Creo que donde la IA puede ayudar aquí es en resumir cambios, conflictos e impactos en el codebase, y quizá en un escaneo de seguridad si es posible.
- ¿Alguien vio noticias sobre cuándo planean aplicarlo a Copilot?
“Users requiring raw chains of thought for advanced prompt engineering can contact sales”
Ahora parece que los tres proveedores de LLM están ocultando la cadena de pensamiento (CoT). Es una lástima, porque ayudaba a ajustar rápido los prompts al permitir ver el momento en que empezaba a irse por el camino equivocado.
No solo OpenAI; Google también empezó recientemente a cambiar el proceso de pensamiento por resúmenes, que personalmente considero demasiado simplificados.
- ¿Será que la razón para excluir el proceso de pensamiento es el reciente paper de Anthropic?
  https://assets.anthropic.com/m/71876fabef0f0ed4/original/rea...
  El paper evaluó la fidelidad de la cadena de pensamiento de modelos de razonamiento recientes con 6 pistas de razonamiento, y dice que en la mayoría de configuraciones y modelos, al menos el 1% de los casos que usaron pistas aparecen en la cadena de pensamiento, pero la tasa de revelación suele ser menor al 20%; que el aprendizaje por refuerzo basado en resultados al principio aumenta la fidelidad, pero luego se estanca sin saturarse; y que aunque el reward hacking aumenta la frecuencia de uso de pistas, no aumenta la tendencia a expresarlo verbalmente en la cadena de pensamiento.
  Es decir, la cadena de pensamiento también puede ser una explicación inventada por el modelo. Así que quizá alguien dentro de Anthropic no quiera engañar a los clientes, y tal vez vuelva cuando este problema se resuelva.
- Esto es alquimia, y todos creen tener su propia ventaja para convertir plomo en oro.
- Según recuerdo, RLHF sacrifica inevitablemente parte de la precisión del modelo en el proceso de entrenarlo para que no dé respuestas peligrosas.
  Si el modelo para la cadena de pensamiento se entrenó de forma distinta al modelo que interactúa con el usuario final, tiene sentido. Por ejemplo, podría ser otro experto dentro de un MoE; y como el usuario de todos modos solo ve la salida filtrada por el modelo público, el modelo de cadena de pensamiento puede estar más cerca del modelo original previo a RLHF con menos riesgo reputacional para la empresa.
  Así se puede obtener el rendimiento del modelo original y, al mismo tiempo, mantener el filtrado para evitar daños reales o accidentes graves de PR.
- Parece que habrá que esperar a que DeepSeek vuelva a superar a todos.
- Al aprender Zig, la cadena de pensamiento me ayudó muchísimo.
  Al preguntar sobre Zig y su implementación, ver el proceso de pensamiento del modelo me amplió mucho la perspectiva.
No puedo ser el único que piensa que esta versión no es mejor que la anterior, que los LLM básicamente entraron en una meseta, y que las “funciones” de los nuevos lanzamientos son, en su mayoría, puro humo
- Parece que solo mejoran en los bordes. Áreas como MCP, llamadas a herramientas y salida estructurada. Definitivamente no es que haya aumentado la inteligencia, pero sí aumentó el valor agregado, y no sé si ese valor justifica el costo de entrenamiento o la valuación de estas empresas
  Siendo realistas, no tengo ni idea de cómo estas empresas pueden ser sostenibles. Probé alojar inferencia en GPU en la nube y, en cuanto agregas aunque sea un plan gratuito, los costos parecen volverse extremadamente pesados
- “Los LLM llegaron a una meseta” suena como el nuevo meme de los loros estocásticos. Basta ver el artículo que llegó a la portada hace unas horas: un agente basado en LLM recibió tres herramientas de búsqueda de correo y una tarea simple, “encuentra el nombre del hijo de mi hermano”, y resolvió el problema de forma sistemática, refinó las búsquedas e infirió el nombre correcto a partir de un correo que solo tenía “la comida favorita de X” y un enlace de YouTube
  Sin mencionar alphaevolve, la demo de prueba del agente Copilot de Microsoft que ejecuta el navegador, explora funcionalidades y escribe tests de Playwright, ni los avances en programación
- He usado mucho Claude Code y estoy de acuerdo. Después de la actualización no noté ninguna diferencia. Los resúmenes parecen un poco más pulidos, pero nunca me sorprendió en términos de capacidad
  En una base de código TypeScript tuve que seguir corrigiéndolo y volver a darle prompts, igual que con 3.7. Incluso, en una situación en la que estaba editando el archivo equivocado, fue bastante impactante que no se le ocurriera verificarlo con más detalle hasta que lo obligué a borrar todo el código y mostrar que el objetivo que estábamos viendo no había cambiado en absoluto
- En general, tengo la misma sensación. Las victorias en benchmarks últimamente parecen venir del tuning, a cambio de pérdidas en otras áreas. o3 y o4-mini también tienen más alucinaciones que o1 en SimpleQA y PersonQA
  Los datos sintéticos parecen aumentar la tasa de alucinaciones, y los modelos de razonamiento son más vulnerables porque en cada paso de razonamiento una alucinación puede desviar al modelo
  Creo que los LLM para uso general ya llegaron a su límite a principios de este año. OpenAI también se dio cuenta al cancelar GPT-5 y luego lanzar GPT-4.5, que era “demasiado caro para lo que aportaba”, para después decidir cerrarlo pronto
  No sé si el mercado bursátil ya reflejó esto. Para salir de aquí hace falta un avance decisivo
- En muchos casos, los benchmarks se ven muy parecidos a Claude 3.7
  Aun así, eso no alcanza en absoluto para decir que llegó a una meseta. El ritmo de avance fue increíblemente rápido, así que habría que esperar unos meses más antes de hacer ese juicio
  Sobre las funciones, pienso más bien lo contrario. No son humo: aunque no sean la IA central en sí, son una instrumentación importante y necesaria para aprovechar la IA en la práctica. El campo de los LLM para uso masivo todavía está en una etapa temprana. Aunque los modelos no mejoren más, todavía hay muchísimo margen para elevar enormemente la usabilidad y la capacidad en aspectos como la forma de interacción, el suministro de información y las llamadas a herramientas
Me gusta muchísimo Claude 3.7, lo uso todos los días y en general lo prefiero a los modelos de Gemini. Pero probé Opus 4 en Claude Code para trabajar en una funcionalidad casi nueva dentro de una base de código Go y, aunque el proceso de razonamiento es bueno, 70 a 80% de las llamadas a herramientas fallan
Incluso herramientas básicas como “Write” y “Update” fallan por sintaxis incorrecta. Los cinco intentos de escribir un archivo fallaron, y seguía diciendo “sigo olvidando agregar el parámetro content. Lo voy a corregir” mientras lo intentaba una y otra vez
Algo está mal. Espero que lo resuelvan pronto, pero por ahora al menos Opus 4 no se puede usar en Claude Code. Aun así, los archivos que sí logró generar eran de alta calidad
- Creo que encontré la causa, y parece un bug evidente: https://github.com/anthropics/claude-code/issues/1236#issuec...
  Básicamente parece que llega al límite máximo de tokens de salida y la respuesta se corta al intentar escribir un archivo nuevo completo de una sola vez. El error de “parámetros de llamada a herramienta incorrectos” era una pista falsa
Ya probamos Opus 4 y Sonnet 4 en nuestro benchmark de generación de SQL: https://llm-benchmark.tinybird.live/
Opus 4 venció a todos los demás modelos, está bueno
- Es raro que Opus 4 sea el peor en one-shot. Necesita en promedio dos intentos para generar una consulta válida
  Si el modelo de verdad es mucho más inteligente, ¿no debería tener también mejor rendimiento en el primer intento? Al fin y al cabo, sí “piensa” de antemano
- Curiosamente, Claude-3.7-Sonnet y Claude-3.5-Sonnet están por encima de Claude-Sonnet-4 en el ranking
- Este benchmark es bastante interesante. Parece romper con el ranking de modelos que se ve comúnmente en otros benchmarks
- Pago Claude Premium, pero en la práctica también uso bastante Grok. La función “think” tiende a llevarme más seguido al resultado que quiero
  Es raro que el modelo de xAI no esté en la lista. El nombre Grok es horrible, pero me sorprende con bastante frecuencia. Todavía no probé el modelo de ChatGPT de 250 dólares, y no me gusta cómo se está comportando OpenAI últimamente
- Tengo curiosidad: ¿cómo saben que las preguntas y el SQL no están en los datos de entrenamiento del LLM? Parece que las preguntas y el SQL del benchmark están en línea: https://ghe.clickhouse.tech/
¿Hay algún lugar donde estén documentados los cambios en la ventana de contexto de Claude 4? No lo sé bien, pero entendía que una de las razones por las que Gemini 2.5 resultaba útil era que podía manejar un contexto enorme, del orden de 50 mil a 70 mil líneas.
- La ventana de contexto de Sonnet sigue igual. Entrada de 200k, salida de 64k: https://docs.anthropic.com/en/docs/about-claude/models/overv...
  En la práctica, el contexto de 1M de Gemini 2.5 no es un diferenciador tan grande. A medida que el contexto crece, el rendimiento percibido de la capacidad para seguir bien los tokens del final disminuye.
- Me gustaría que ampliaran la ventana de contexto o que manejara mejor los casos en que el prompt se vuelve demasiado largo. Ahora aparece de golpe la advertencia “prompt is too long”, lo que convierte al modelo en algo frustrante de usar para conversaciones largas o escritura extensa.
  Otras herramientas descartan parte del contexto anterior o usan RAG, pero no te obligan a iniciar un chat nuevo sin aviso.
- No entiendo bien a qué se refieren. El título del artículo dice que Opus 4 tiene contexto de 200k.
  Igual que el encabezado beta de Sonnet 3.7.
- El tamaño de la ventana de contexto es una métrica bastante engañosa. Si no tienes el contexto correcto, tampoco obtendrás una buena salida.
“Finally, we've introduced thinking summaries for Claude 4 models that use a smaller model to condense lengthy thought processes. This summarization is only needed about 5% of the time—most thought processes are short enough to display in full. Users requiring raw chains of thought for advanced prompt engineering can contact sales about our new Developer Mode to retain full access.”
No quiero ver un “resumen” del razonamiento del modelo. Para verificar si el razonamiento del modelo es correcto y si se puede confiar en el resultado, necesito ver el razonamiento real.
Me molesta mucho que, después de OpenAI, ahora Anthropic también vaya en la dirección de ocultar el proceso de pensamiento del modelo, cobrar por tokens que el usuario no puede ver y ofrecer “resúmenes” que impiden saber qué está ocurriendo realmente.
- Varios papers reportan que la salida de “pensamiento” no tiene mucha relación con la salida final, y que se obtienen mejoras similares incluso habilitando pasos adicionales de procesamiento con tokens de puntos o pausas.
  En muchos sentidos, el “pensamiento” es más que nada marketing.
  - "Think before you speak: Training Language Models With Pause Tokens" - https://arxiv.org/abs/2310.02226
  - "Let's Think Dot by Dot: Hidden Computation in Transformer Language Models" - https://arxiv.org/abs/2404.15758
  - "Do LLMs Really Think Step-by-step In Implicit Reasoning?" - https://arxiv.org/abs/2411.15862
  - video introductorio de bycloud -> https://www.youtube.com/watch?v=Dk36u4NGeSU
- No hace falta preocuparse tanto. Hay bastante evidencia de que el pensamiento suele estar separado de la salida.
  Considerando que la gente casi no lee realmente los procesos de pensamiento, yo lo veo como una mejora de experiencia de usuario.
- ¿Esto se refiere a su propia interfaz de chat? La API todavía transmite de inmediato los tokens de thinking por streaming.
- Tengo entendido que Gemini 2.5 Pro también hace esto.
De verdad espero que Sonnet 4 no se obsesione con las llamadas a herramientas como 3.7. 3.5 fue la primera vez que sentí esa experiencia mágica de que un modelo realmente podía dominar la programación. Desde entonces, se siente un poco cuesta abajo.
- A mí también me disgustaba mucho esa actitud excesivamente proactiva de 3.7, tipo “ya que estamos, haré una cosa más”. Ojalá vuelva al nivel de seguimiento de instrucciones de 3.5.
- Esto me suena más a un problema del prompt del sistema que del modelo.
Parece que volvió la carrera de MHz de CPU de los 90. Solo que ahora, en vez de hablar de arquitecturas de CPU y resultados de valor ambiguo en varios benchmarks, estamos teniendo el mismo tipo de charla nerd entre LLMs.
La historia rima consigo misma.
- Sí volvió, pero al ritmo de avance tecnológico de mediados de los años 2020. Recuerdo que la carrera de MHz de CPU era mucho más lenta, aunque quizá mi percepción del tiempo en los 90, cuando era niño, también era más lenta.
  Aun así, estoy bastante seguro de que no había nuevos “lanzamientos” de CPU cada pocos meses como ahora salen modelos nuevos cada pocos meses en la carrera de la IA.

Presentan Claude 4: Opus 4 y Sonnet 4

Presentación de los modelos Claude 4

Disponibilidad y precios

Rendimiento de Opus 4 en programación y tareas de largo plazo

Posicionamiento de Sonnet 4

Mejoras en las funciones del modelo

Resúmenes de pensamiento y Developer Mode

Lanzamiento general de Claude Code

API y seguridad

Forma de reportar benchmarks

Metodología de TAU-bench y SWE-bench

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News