20 puntos por GN⁺ 2026-02-06 | 9 comentarios | Compartir por WhatsApp
  • El modelo de IA más reciente de Anthropic, con mejores capacidades de programación y mayor persistencia en tareas de larga duración, ahora ofrece una ventana de contexto de 1M tokens en beta
  • Obtuvo puntuaciones de nivel líder en la industria en benchmarks clave, con una ventaja de aproximadamente 144 puntos Elo sobre GPT-5.2
  • Se reforzó su rendimiento en tareas orientadas al trabajo real como revisión de código y depuración, manejo de bases de código a gran escala y análisis financiero y redacción de documentos
  • Se añadieron funciones de control para desarrolladores como Adaptive thinking, context compaction y ajuste de effort, lo que facilita operar agentes de ejecución prolongada
  • En evaluaciones de seguridad también mostró bajas tasas de errores, uso indebido y rechazos excesivos, por lo que se considera un modelo que logra alto rendimiento y seguridad al mismo tiempo

Principales mejoras de Claude Opus 4.6

  • Opus 4.6 mejora frente a la versión anterior en capacidad de planificación, persistencia de agentes y control de calidad de código
    • Funciona con mayor estabilidad en bases de código grandes y fortalece su capacidad para detectar y corregir errores por sí mismo
    • Puede manejar tareas largas y complejas gracias a su ventana de contexto de 1M tokens (beta)
  • También amplía su utilidad en el trabajo diario, permitiendo realizar tareas como análisis financiero, investigación, creación de documentos, hojas de cálculo y presentaciones
  • En el entorno de Cowork puede ejecutar múltiples tareas de forma autónoma, resolviendo trabajos complejos en nombre del usuario

Benchmarks y evaluación de rendimiento

  • Alcanzó la mejor puntuación en Terminal-Bench 2.0 y también lideró entre todos los modelos frontier en Humanity’s Last Exam
  • En la evaluación GDPval-AA mostró un rendimiento aproximadamente 144 puntos Elo superior a GPT-5.2 y 190 puntos por encima de Opus 4.5
  • También registró el mejor resultado en la prueba BrowseComp, mejorando su capacidad de búsqueda de información en línea
  • En MRCR v2 (1M variant) obtuvo 76%, un gran salto frente al 18.5% de Sonnet 4.5
  • Se mejoró la retención de contexto largo y la capacidad de rastrear información, reduciendo el fenómeno de context rot

Experiencia de uso inicial y comentarios de socios

  • En pruebas internas de ingeniería mejoró la capacidad para resolver problemas complejos y el criterio
    • Ante problemas difíciles, repite procesos de razonamiento profundo para obtener mejores resultados
    • En tareas simples, pensar demasiado puede causar demoras, por lo que esto puede ajustarse con el parámetro /effort
  • Los primeros socios evaluaron que Opus 4.6 sobresale en capacidad de ejecución autónoma, manejo de solicitudes complejas y apoyo al trabajo colaborativo en equipo
    • Mostró gran precisión al explorar bases de código grandes, ejecutar subtareas en paralelo e identificar bloqueadores
    • Alta precisión en análisis de contenido legal, financiero y técnico (por ejemplo, BigLaw Bench 90.2%)
    • En pruebas reales, ofreció mejores resultados que Opus 4.5 en 38 de 40 investigaciones de ciberseguridad
    • Se reportó un caso en el que completó la migración de millones de líneas de código en la mitad del tiempo

Refuerzos en seguridad y protección

  • En la auditoría automatizada de comportamiento mostró bajas tasas de conductas no alineadas como engaño, adulación o colaboración en usos indebidos
  • Es el modelo Claude con la menor tasa de rechazo excesivo (over-refusal)
  • Se realizaron nuevas evaluaciones de seguridad sobre bienestar del usuario, rechazo de solicitudes riesgosas y detección de conductas dañinas encubiertas
  • Mediante investigación de interpretabilidad se analizaron las causas del funcionamiento interno del modelo y se detectaron posibles problemas
  • Con el fortalecimiento de sus capacidades de ciberseguridad, se incorporaron 6 nuevas sondas de seguridad para reforzar la detección de abusos
  • Como uso defensivo, apoya la detección y corrección de vulnerabilidades en open source, con planes futuros para bloquear abusos en tiempo real

Actualizaciones de producto y API

  • En la Claude Developer Platform se añadieron las siguientes funciones
    • Adaptive thinking: el modelo decide automáticamente si necesita razonamiento profundo según la situación
    • Nivel de effort: ofrece cuatro niveles, low, medium, high (predeterminado) y max
    • Context compaction (beta): cuando una conversación se alarga, resume y reemplaza contexto antiguo
    • Compatibilidad con contexto de 1M tokens (beta) y 128k tokens de salida
    • Opción de US-only inference (tarifa 1.1x)
  • Claude Code añade la función agent teams, permitiendo colaboración paralela entre varios agentes
  • Claude in Excel mejora su capacidad para estructurar datos no estructurados y procesar cambios en múltiples pasos
  • Claude in PowerPoint (research preview) reconoce plantillas de diapositivas, fuentes y diseños para mantener consistencia de marca

Acceso y precios

  • Opus 4.6 está disponible de inmediato en claude.ai, la API y las principales plataformas cloud
  • El nombre del modelo en la API es claude-opus-4-6, y el precio se mantiene igual que antes: $5/$25 per million tokens
  • Para prompts de más de 200k tokens se aplica una tarifa premium ($10/$37.50 per million tokens)

Conclusión

  • Claude Opus 4.6 representa un gran salto en manejo de contexto de largo plazo, trabajo autónomo de agentes y razonamiento avanzado
  • Como modelo que refuerza a la vez rendimiento, seguridad y control para desarrolladores, plantea un nuevo estándar para las herramientas de IA orientadas al trabajo real

9 comentarios

 
heim2 2026-02-06

Como uso Max, mientras más tokens gasto, más satisfecho me siento... Si no los uso, siento que es un desperdicio...

 
duse0001 2026-02-06

Parece que la rebaja de precio que andaba circulando en internet no se aplicó, qué pena :(

 
wegaia 2026-02-06

Parece que en Reddit están lloviendo publicaciones diciendo que a los suscriptores se les agotan los límites a velocidad de la luz.
Como además tengo otras cosas entre manos, por ahora sigo usando 4.5

 
xguru 2026-02-06

Parece que durante un período limitado también darán 50 dólares adicionales en créditos de uso. jaja

 
duse0001 2026-02-06

Esperaba que si bajaban los precios de la API, naturalmente también subiría el límite semanal, pero qué pena T_T. El límite semanal del plan de 200 dólares no es nada holgado..

 
princox 2026-02-06

Uf, está demasiado caro... ¡Anthropic debería soltar más tokens..!!

 
hmmhmmhm 2026-02-06

Oooh, por fin~~~~

 
princox 2026-02-06

Esperaba Sonnet 5, pero era Opus 4.6 jaja

 
GN⁺ 2026-02-06
Opiniones de Hacker News
  • El cuadro de la bicicleta está un poco torcido, pero el pelícano en sí está excelente
    La imagen puede verse aquí

    • Me pregunto si no estará sobreajustado a dibujar pelícanos
    • Me pregunto si elegir palabras como “generate” influye en el resultado del modelo
      Noté enseguida que las dos patas del pelícano estaban del mismo lado, y confirmé en Wikipedia que en realidad no es así
      También me pregunto si probaron ir ajustando el prompt repetidamente para obtener un resultado más realista
    • La verdad es que la mayoría de la gente tampoco sabe dibujar bien una bicicleta
      Suelen equivocarse en la estructura del cuadro o en las proporciones geométricas
    • También hay una versión animada
      Enlace
    • Pienso si no llegará un momento en que estas salidas vuelvan a entrar al entrenamiento del modelo y terminen pasando los benchmarks
  • GPT‑5.3 Codex mostró un rendimiento aplastante de 77.3% en Terminal Bench
    Sorprende que el récord se haya roto en apenas 35 minutos

    • Como el rendimiento del modelo cambia según la hora o la carga del servidor, me pregunto si se puede confiar en esta fiabilidad de benchmark
      También me pregunto si justo después del lanzamiento lo ejecutan al máximo rendimiento y luego lo bajan para reducir costos
    • Como no hay un reporte amplio de benchmarks, me pregunto si no será puro benchmaxxing
      Me gustaría probarlo yo mismo y luego compartir una opinión
    • Subir 10 puntos en la puntuación es un cambio grande, así que me pregunto si también se sentirá una diferencia cualitativa en el uso real
      Quizás ya llegamos a un punto de saturación en los benchmarks
    • En Claude swe-bench, Claude marca 80.8 y Codex 56.8, así que Claude 4.6 todavía parece llevar ventaja en términos generales
  • Este es un resumen de las notas de lanzamiento de Claude Code
    Incluye varias actualizaciones, como la incorporación de Opus 4.6, colaboración multi-agent, guardado automático de memoria, resúmenes parciales de conversaciones y mejoras en VSCode

    • Me parece interesante la parte de que “Claude registra y recupera recuerdos automáticamente mientras trabaja”
      Viendo la documentación de memoria, parece un concepto parecido al Knowledge artifact de Google Antigravity
  • Creo que en la discusión se están mezclando dos cosas
    La primera es la rentabilidad basada en precio por token, y la segunda es la economía del ciclo de vida del modelo
    El costo de inferencia puede ser rentable, pero el programa completo del modelo todavía puede operar con pérdidas
    La verdadera pregunta es: “¿cuánto tiempo necesita mantenerse competitivo un modelo para que tenga sentido económicamente?”

    • Hay que recordar “worse is better
      Aunque no sea el mejor, si es suficientemente bueno y el costo de cambio es alto, puede dominar el mercado
      Al principio, incluso aceptando pérdidas, puede ser razonable asegurar mercado alrededor de un dominio específico (por ejemplo, programación)
    • Según los planes de API, parece que sí hay algo de ganancia
      Pero un plan donde el uso aumenta 20 veces genera dudas sobre su sostenibilidad
      No sé si este actual “renacimiento del vibe-coding” pueda mantenerse con una estructura de costos así
    • Como dijo Dario en un pódcast, los modelos son rentables a lo largo de toda su vida útil
      Ver ganancias y pérdidas por año no encaja bien con la naturaleza de una empresa de IA
    • Lo realmente interesante es si el “plan de $200 al mes” está subsidiado
      Eso es lo que hoy sostiene el boom del coding con agentes
      Probablemente sí lo esté un poco, pero a largo plazo podría subir más o menos al doble
  • La llegada de una ventana de contexto de 1M es una mejora enorme y me tiene muy satisfecho

  • Todavía no termino de entender la estrategia de Anthropic
    Hace marketing para el mercado masivo, pero su fortaleza real está claramente en la programación
    Para investigación general o búsqueda de información, ChatGPT o Gemini son mucho más profundos y también se expresan mejor
    Hacen marketing de humanidad con cosas como la “constitución” o los “derechos humanos”, pero al final se sienten como los más transaccionales
    Aun así, para programar es excelente, así que lo sigo pagando

    • Fuera del código, Claude también funciona bastante bien en conversaciones generales
      Amigos no técnicos míos se pasaron de ChatGPT a Claude y no he visto a ninguno regresar
      Hace 8 meses solo valía la pena en la API, pero ahora mejoró muchísimo
    • En idiomas que no son inglés, la calidad cae de forma grave
      Yo uso checo, y Claude inventa palabras; Grok a veces hasta responde en ruso
      Para programar sirve, pero para conversación general es imposible
    • El modelo no se siente cotidiano
      Es bueno para tareas agentivas o uso de herramientas, pero no lo uso para preguntas del día a día
  • Opus 4.6 no me aparecía en la instalación, pero al volver a ejecutar el comando de instalación sí apareció (v2.1.32)
    Guía de instalación

    • Ya lo estoy usando
  • Me pregunto si en realidad los costos operativos de AI/LLM sí están bajando
    El concepto de “equipo de agentes” suena genial, pero si ejecutas varios modelos al mismo tiempo, el costo sube tanto que parece poco realista

    • El costo por token ha venido bajando de forma constante
      OpenAI redujo el precio de o3 a 1/5 mediante optimización de ingeniería, y otras empresas también lograron recortes parecidos
      Ese viejo comentario de que “pierden dinero en cada solicitud” no es cierto
    • Ese rumor se repite, pero en realidad no creo que el precio de inferencia pueda estar por debajo del costo
      La empresa completa puede perder dinero por I+D y entrenamiento, pero el uso de la API en sí deja ganancia
      Incluso modelos abiertos como DeepSeek generan ingresos con precios mucho más bajos
    • Viendo los datos reales, no parece posible que operen con pérdidas
      Por ejemplo, Claude 4 (unos 400B parámetros) es mucho más caro que DeepSeek V3 (680B)
      Claude entrada $1/M, salida $5/M vs DeepSeek entrada $0.4/M, salida $1.2/M
      Esa diferencia existe porque Anthropic necesita recuperar el costo de entrenamiento
      Precios de DeepSeek, Precios de Claude
    • El cálculo real de pérdidas y ganancias es difícil, porque hay mucha incertidumbre en cosas como la depreciación y la vida útil del modelo
      Si solo miras el ingreso por inferencia, parece rentable, pero si miras el costo total quizá no lo sea
    • El uso de agentes de IA sigue siendo limitado
      Los uso como apoyo para programar, pero a menudo hace falta corregirles el rumbo
      Aun así, siguen siendo mucho más baratos que contratar personal altamente capacitado
  • La frase “We build Claude with Claude” me parece bastante interesante

    • Claude Code tiene más de 6000 issues abiertos
      Aunque se limpian automáticamente tras 60 días de inactividad, el número sigue creciendo
    • Me parece un producto muy exitoso
      Fuera de revelar cierto sesgo, esa frase no significa demasiado
    • Yo lo veo como un ejemplo de la importancia del dogfooding
      Usar tu propio producto es la mejor manera de mejorar la calidad
    • El sandboxing de CC es casi un chiste
      Esa es una de las razones de la explosión actual de wrappers, y da la impresión de que algún día habrá un incidente de seguridad
    • Así se explica por qué Claude Code tiene una estructura donde una app de React se renderiza en la terminal
  • Están ofreciendo $50 de crédito extra para que la gente pruebe Opus 4.6
    Se puede reclamar directamente desde la página de uso
    Supongo que esperan un aumento en el uso de tokens o simplemente quieren promocionar el modelo