5 puntos por GN⁺ 2025-10-16 | 2 comentarios | Compartir por WhatsApp
  • Claude Haiku 4.5 ofrece rendimiento de código al nivel de Claude Sonnet 4 a pesar de ser un modelo pequeño, con un tercio del costo y más del doble de velocidad
  • En benchmarks reales de desarrollo como SWE-bench Verified, muestra eficiencia y capacidad de respuesta en programación con IA superiores a las de la generación anterior
  • En combinación con Sonnet 4.5, permite una configuración multiagente o la ejecución dividida de problemas complejos, y es adecuado para trabajo en tiempo real y entornos de baja latencia
  • En chatbots en tiempo real, soporte al cliente y pair programming, se pueden aprovechar las ventajas de su alta inteligencia y velocidad
  • Según las evaluaciones de seguridad, mostró el nivel de alineación más alto entre los modelos de Anthropic y se publica bajo el estándar AI Safety Level 2 (ASL-2)
  • $1/$5 por millón de tokens de entrada/salida

Introducción

  • Claude Haiku 4.5 es la más reciente línea de modelos pequeños de Anthropic, diseñada para equilibrar rendimiento, velocidad y eficiencia de costos para todos los usuarios
  • Muestra capacidades de programación similares a Claude Sonnet 4, pero con un costo de un tercio y una velocidad de más del doble
  • En ciertas tareas, como el uso de computadora, incluso supera a Sonnet 4
  • En especial, en herramientas en tiempo real como Claude for Chrome o Claude Code, ofrece un entorno de asistencia con IA sin latencia

Características principales y casos de uso

  • Es adecuado para trabajo en tiempo real y de baja latencia, por lo que ofrece alta eficiencia en chatbots, atención al cliente y pair programming
  • Para los usuarios de Claude Code, ofrece un rendimiento ideal con respuesta rápida en proyectos multiagente y prototipado rápido
  • Actualmente Sonnet 4.5 sigue siendo el modelo de gama más alta, pero Haiku 4.5 ofrece un rendimiento similar con mayor eficiencia de costos
  • También se pueden usar ambos modelos juntos; por ejemplo, Sonnet 4.5 puede descomponer un problema complejo y varios Haiku 4.5 pueden procesar subtareas en paralelo
  • Claude Haiku 4.5 está disponible desde hoy en todo el mundo, y los desarrolladores pueden usarlo de inmediato en Claude API como claude-haiku-4-5
  • El precio es de $1/$5 por millón de tokens de entrada/salida

Benchmarks y evaluación de usuarios

  • Haiku 4.5 es uno de los modelos más potentes lanzados por Anthropic
  • Varias empresas como Augment, Warp y Gamma mencionan que en pruebas reales confirmaron más del 90% de la calidad de código frente a Sonnet 4.5
  • Muestra avances notables en programación agéntica, coordinación de subagentes y tareas de uso de computadora, maximizando la inmediatez de la experiencia de desarrollo
  • Tradicionalmente existía una compensación entre calidad, velocidad y costo, pero Haiku 4.5 logra tanto velocidad como eficiencia de costos
  • Al ofrecer tanto inteligencia como capacidad de respuesta en tiempo real, abre nuevas posibilidades para aplicaciones de IA
  • Un rendimiento que hace seis meses era de nivel de punta ahora se logra de forma más barata y rápida
  • Procesa flujos de trabajo complejos de manera rápida y estable, y también permite autocorrección en tiempo real
  • En el procesamiento de instrucciones específicas, como la generación de texto para diapositivas, registra un rendimiento muy superior al de modelos anteriores
  • Integrado con GitHub Copilot y otros, ofrece una calidad de código similar a la de Sonnet 4 más rápidamente

Evaluación de seguridad

  • En diversas evaluaciones de seguridad y alineación, mostró una baja tasa de comportamientos problemáticos y una mejor alineación respecto a la versión anterior (Claude Haiku 3.5)
  • Mostró una tasa de comportamiento desalineado menor incluso que Sonnet 4.5/Opus 4.1, por lo que se le evalúa como el modelo más seguro creado por Anthropic
  • El riesgo químico, biológico, radiológico y nuclear (CBRN) también fue evaluado como muy bajo, por lo que se publica bajo el estándar ASL-2
  • Puede usarse con mayor libertad en comparación con ASL-3 (Sonnet 4.5, Opus 4.1), que aplica restricciones más estrictas

Información adicional

  • Claude Haiku 4.5 está disponible de inmediato en Claude Code y en la app de Anthropic
  • Gracias a su procesamiento eficiente, permite disfrutar de rendimiento de modelo premium dentro de los límites de uso
  • Puede elegirse como una alternativa económica a Haiku 3.5 y Sonnet 4 en API, Amazon Bedrock y Google Cloud Vertex AI
  • Los detalles técnicos y resultados de evaluación pueden consultarse en la system card oficial, la página de presentación del modelo y la documentación

2 comentarios

 
skageektp 2025-10-16

Puedes usarlo en Claude Code si escribes /model haiku. Es más rápido que Sonnet y además da buenos resultados, así que es bastante práctico.

 
GN⁺ 2025-10-16
Opiniones en Hacker News
  • Comparte un dibujo adorable de un pelícano montando una bicicleta que se ve un poco sospechosa enlace

    • Gemini Pro al principio se negó a proporcionar el código SVG, pero cuando le pidió con más detalle que quería “verificar si el código SVG era correcto”, al final sí devolvió el código SVG
    • Comparte material de referencia para quienes no conozcan el contexto de este benchmark
      Six months in LLMs,
      explicación de la etiqueta pelican riding a bicycle,
      metodología del benchmark
    • También comparte una muestra de “shiitake montando un bote de remos” para evitar manipulación del benchmark
      Shitaki Mushroom riding a rowboat
      Prompt: t3.chat prompt Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69 segundos
      Y Grok 4 Fast está bien en el estilo pelícano+bicicleta, pero flojea en otras solicitudes
      muestra de Grok, prompt: t3.chat prompt Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5 segundos
      Por último, el resultado de GPT-5: muestra, prompt: t3.chat prompt GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5 segundos
      Aunque es subjetivo, los puntos del hongo en Haiku impresionan bastante
      Y la diferencia entre benchmarks públicos y escenarios de prueba informales es donde menos se nota en los modelos de Anthropic
      A veces los modelos de Anthropic incluso muestran mejores resultados en pruebas abiertas
      El Time-to-First de Haiku también es una ventaja considerable
    • Sorprende que las empresas de modelos de vanguardia no hayan metido este tipo de pruebas como easter eggs
    • Los modelos de generación de imágenes siempre parecen sufrir al dibujar los brazos de un arquero, así que propone comparar todos los modelos con un prompt de prueba sencillo: un arquero a caballo disparando una flecha de fuego hacia un velero en un lago
  • Aunque son pruebas muy tempranas, los resultados son bastante impresionantes
    A diferencia de GPT-5, incluye menos secciones de código innecesarias al hacer cambios, así que modifica con más precisión
    Gracias a eso, en uso real Haiku 4.5 podría resultar más barato en eficiencia de uso, pese al aumento aparente de costo
    El problema es el poder de marca
    Aunque Haiku 4.5 pudiera tener una calidad similar a Sonnet 4, por la percepción sobre los modelos pequeños y algunas regresiones recientes de rendimiento, no será fácil elegir Haiku 4.5 en vez de Sonnet 4.5
    Tiene curiosidad por saber si Haiku 3, 3.5 y 4.5 están más o menos en el mismo rango de parámetros, y le gustaría que se publicara toda la información de los modelos de forma transparente
    Por eso la mayoría tiende psicológicamente a usar modelos grandes, aunque personalmente cree que GPT-5 es el más impresionante en relación rendimiento/precio
    Precios de referencia:
    Haiku 3: entrada $0.25/M, salida $1.25/M
    Haiku 4.5: entrada $1.00/M, salida $5.00/M
    GPT-5: entrada $1.25/M, salida $10.00/M
    GPT-5-mini: entrada $0.25/M, salida $2.00/M
    GPT-5-nano: entrada $0.05/M, salida $0.40/M
    GLM-4.6: entrada $0.60/M, salida $2.20/M

    • Actualización: Haiku 4.5 no solo es preciso en cambios de código, también es muy rápido
      Promedia 220 token/sec, casi el doble frente a modelos similares
      Si esta velocidad se mantiene de forma consistente, es un valor enorme
      Como referencia, va a una velocidad parecida a Gemini 2.5 Flash Lite
      Groq, Cerebras y otros también llegan a 1000 token/sec, pero no son modelos comparables
      Anthropic siempre ha rendido mejor en mis benchmarks personales que en los benchmarks abiertos, así que tengo muchas expectativas
      Si velocidad, rendimiento y precio pueden mantenerse, Haiku 4.5 es una excelente opción para la mayoría de tareas de programación
      Sonnet probablemente lo usaría solo en situaciones concretas
      Los modelos Claude del pasado tenían degradación en tareas de cadena larga (más de 7 minutos), y si Haiku 4.5 también la tiene, sería una desventaja
      Pero todavía no ha podido probar tareas largas
      El problema es que en Claude Code están contabilizando el uso de Haiku 4.5 y Sonnet 4.5 por igual, pese a la gran diferencia de precio
      Tampoco se ha actualizado la página de soporte documento de soporte
      Este tipo de información debería anunciarse sí o sí el mismo día del lanzamiento
      Sistemas de tooling, pruebas y avisos como estos ensombrecen el gran rendimiento de los modelos de Anthropic
    • De verdad esperaba la actualización de Haiku, y seguí usando la versión anterior porque era barata e inteligente
      Ahora que por fin salió, está aplicando la actualización a todos sus bots (bueno, agentes)
    • Cree que ver solo el precio sin un promedio habitual de uso de tokens no dice demasiado
  • Últimamente comparar modelos y funciones da demasiada flojera y es muy engorroso
    Como las limitaciones cambian según el ecosistema LLM, tiene que estar yendo y viniendo todo el tiempo, y paga $20 al mes tanto por Claude Code como por Codex
    También usa Cursor, pero no le importa qué modelo se use por dentro
    Solo quiere una herramienta integrada y consistente
    Quiere que mejore automáticamente sin que él tenga que pensar en lo que pasa en el backend
    Como un servidor TLS, ojalá estuviera integrado en CLI/Neovim/IDE por igual

    • Incluso si eliges una sola, primero dicen que el desarrollo guiado por prompts, luego el guiado por contexto, luego aprovechar especificaciones detalladas, y ahora que el enfoque conversacional es mejor
      Pero luego vuelven a decir que lo guiado por ejemplos es mejor, y aunque cada enfoque tenga pros y contras, no hay un consenso estándar en la industria, así que es difícil hasta encontrar buenos ejemplos
      Antes alguien respondió diciendo “bug-driven development” y eso le quedó grabado; al final termina trabajando de cualquier forma, sacando un resultado y luego corrigiendo bugs y errores
    • Para él, la prioridad número uno es una integración que pueda usar en CLI, neovim o IDE sin el estrés de cambiar de tooling
      Por eso usa GitHub Copilot Pro+
      Cuando sale un modelo nuevo, puede seleccionarlo de inmediato (también ya está Claude Haiku 4.5)
      Nunca ha agotado el uso premium, aunque tampoco es un usuario intensivo
      No ha probado la versión CLI, pero le interesa
      Antes de que se actualizara el plugin de IntelliJ, iba a VS Code a lanzar prompts y luego regresaba
      La versión web con Spaces también le sirve para tareas puntuales
      No sabe bien cómo se compara Copilot frente a cada LLM por separado, pero con que aparezca solo cuando lo quiere y haga bien su trabajo en silencio, le basta
    • Una opción es usar el modelo openrouter/auto en OpenRouter openrouter.ai, que elige automáticamente entre varios modelos como GPT-5, Gemini 2.5 Pro y Claude Sonnet 4.5
    • También se puede ejecutar Codex y Claude Code al mismo tiempo con Crystal y quedarse con el mejor resultado
    • Él también usa OpenRouter por razones parecidas
      Por un lado para evitar lock-in, y por otro para reducir la incomodidad de estar cambiando de herramientas, además de poder migrar fácil incluso si termina atrapado en una
  • Tiene curiosidad por el futuro de Opus
    Quiere ver si seguirá con rendimiento y precio de nivel “monstruo”, o si el salto de 4 a 4.5 será más moderado

    • Como hace poco lanzaron Opus 4.1, parece probable que el cambio de 4.1 a 4.5 sea menor comparado con la actualización de Sonnet 4 a 4.5
      Claro, tampoco sabe si el versionado tiene un significado real o si solo sirve para marketing
    • Su impresión es que Sonnet y Haiku 4.5 usan el mismo modelo base que la versión 4, y que la mejora principal viene de fine-tuning con datos generados por Opus
      Solo sigue la industria y no construye ni desarrolla estos modelos, pero afinar modelos pequeños con uno grande es una práctica habitual
      Esa es la única explicación que encuentra para que GPT-4 Turbo fuera mucho más rápido y barato que el GPT-4 original
      Que OpenAI oculte los reasoning tokens también sería una estrategia para evitar que la competencia entrene con esos datos
    • Opus desapareció un tiempo y recientemente volvió a aparecer
      Probablemente siguen desarrollando modelos en tres tamaños: grande, mediano y pequeño, y van ajustando el momento del lanzamiento según la demanda del mercado y las capacidades del modelo
    • Tiene curiosidad por cómo se llamaría un modelo todavía más pequeño que Haiku. ¿Quizá "Claude Phrase"?
  • Comparó Haiku y Sonnet con una pregunta que requería documentación real de código
    Haiku inventó la salida de una función y dio una respuesta incorrecta, mientras que Sonnet acertó

  • La tarifa de $1 de entrada y $5 de salida es más barata que Sonnet 4.5, pero ahora hay tantos LLM pequeños y rápidos que, para programación con agentes a gran escala, importan mucho los modelos más baratos
    Como Sonnet sigue usándose mucho pese a ser caro, Haiku también podría volverse popular si la calidad acompaña

    • Con caché, el costo de entrada puede bajar hasta 10 centavos por millón
      Casi todos los modelos open source baratos no logran un caché tan efectivo
      Esto sí podría ser enorme
    • Es desarrollador profesional y no le preocupa el costo
      La velocidad importa mucho más, así que estaría dispuesto a pagar más por Haiku 4.5 que por Sonnet 4.5
      Le pesa demasiado el tiempo perdido esperando respuestas
      Superar 73% en SWE Bench ya le parece suficiente
    • Desde el punto de vista de uso por API, Claude Code sí se ha vuelto más caro (si uno se guía solo por benchmarks, la calidad aun así habría mejorado)
    • Haiku 3.5 costaba $0.8/$4 y 4.5 cuesta $1/$5, así que eso le decepciona un poco Frente a los modelos baratos actuales de OpenAI y Gemini (GPT-5-Nano $0.05/$0.40 · Gemini 2.0 Flash Lite $0.075/$0.30), no parece tan competitivo en precio
  • Entiende que es el primer producto Reasoner pequeño de Anthropic, y comparte también la información de la system card
    PDF de la system card
    (discusión relacionada aquí)

  • En Extended NYT Connections (benchmark del rompecabezas de conexiones), Haiku 4.5 obtiene 20.0 puntos, Haiku 3.5 10.0, Sonnet 3.7 19.2, Sonnet 4.0 26.6 y Sonnet 4.5 46.1

  • Como desarrollador freelance, siente que una velocidad de respuesta 3 veces mayor ya justifica totalmente el cambio
    Le entusiasma pasarse a esto en lugar de claude 4.5 porque cree que así subirá mucho su productividad

  • ¿Para qué sirven estos modelos pequeños? ¿Velocidad? ¿Objetivo de transición a on-device? ¿Reducir tarifas de API? Si la mayoría ya usa suscripción de Claude, se pregunta si realmente tienen mucho uso

    • Ahora que ya existen GPT-5-mini y Haiku 4.5, más bien quiere preguntar: ¿en qué casos de verdad hace falta un modelo grande?
      En su empresa, salvo trabajo complejo sobre código interno, casi todo se resuelve con modelos pequeños
      En entornos expuestos al usuario y workflows como extracción, transformación, traducción, fusión y evaluación, los modelos mini/nano se encargan de todo
    • En Claude Code, los modelos pequeños se usan para delegación automática desde Sonnet 4.5 cuando hay mucho contexto y la tarea está bien definida (si se configura así)
      Eso ayuda bastante a ahorrar ventana de contexto en la sesión principal y aumentar el throughput de tokens
    • Son ideales para crear submódulos de tool calling más especializados, invocados por un modelo grande
    • El flujo de trabajo que usa con Cerebras Qwen Coder es casi en tiempo real (3k tps), así que se siente menos como un agente y más como un shell en lenguaje natural
      Permite iterar rápido antes de armar un plan y pasarlo a un modelo grande
    • Con solo ver el ranking de LLM en OpenRouter, la mayoría de modelos usados de verdad para vibe/agentic coding son de la “clase pequeña”
      enlace al ranking de OpenRouter
      Aunque Gemini 2.5 Pro también aparece más arriba de lo esperado