Anthropic presenta Claude Haiku 4.5

(anthropic.com)

5 puntos por GN⁺ 2025-10-16 | 2 comentarios | Compartir por WhatsApp

Claude Haiku 4.5 ofrece rendimiento de código al nivel de Claude Sonnet 4 a pesar de ser un modelo pequeño, con un tercio del costo y más del doble de velocidad
En benchmarks reales de desarrollo como SWE-bench Verified, muestra eficiencia y capacidad de respuesta en programación con IA superiores a las de la generación anterior
En combinación con Sonnet 4.5, permite una configuración multiagente o la ejecución dividida de problemas complejos, y es adecuado para trabajo en tiempo real y entornos de baja latencia
En chatbots en tiempo real, soporte al cliente y pair programming, se pueden aprovechar las ventajas de su alta inteligencia y velocidad
Según las evaluaciones de seguridad, mostró el nivel de alineación más alto entre los modelos de Anthropic y se publica bajo el estándar AI Safety Level 2 (ASL-2)
$1/$5 por millón de tokens de entrada/salida

Introducción

Claude Haiku 4.5 es la más reciente línea de modelos pequeños de Anthropic, diseñada para equilibrar rendimiento, velocidad y eficiencia de costos para todos los usuarios
Muestra capacidades de programación similares a Claude Sonnet 4, pero con un costo de un tercio y una velocidad de más del doble
En ciertas tareas, como el uso de computadora, incluso supera a Sonnet 4
En especial, en herramientas en tiempo real como Claude for Chrome o Claude Code, ofrece un entorno de asistencia con IA sin latencia

Características principales y casos de uso

Es adecuado para trabajo en tiempo real y de baja latencia, por lo que ofrece alta eficiencia en chatbots, atención al cliente y pair programming
Para los usuarios de Claude Code, ofrece un rendimiento ideal con respuesta rápida en proyectos multiagente y prototipado rápido
Actualmente Sonnet 4.5 sigue siendo el modelo de gama más alta, pero Haiku 4.5 ofrece un rendimiento similar con mayor eficiencia de costos
También se pueden usar ambos modelos juntos; por ejemplo, Sonnet 4.5 puede descomponer un problema complejo y varios Haiku 4.5 pueden procesar subtareas en paralelo
Claude Haiku 4.5 está disponible desde hoy en todo el mundo, y los desarrolladores pueden usarlo de inmediato en Claude API como claude-haiku-4-5
El precio es de $1/$5 por millón de tokens de entrada/salida

Benchmarks y evaluación de usuarios

Haiku 4.5 es uno de los modelos más potentes lanzados por Anthropic
Varias empresas como Augment, Warp y Gamma mencionan que en pruebas reales confirmaron más del 90% de la calidad de código frente a Sonnet 4.5
Muestra avances notables en programación agéntica, coordinación de subagentes y tareas de uso de computadora, maximizando la inmediatez de la experiencia de desarrollo
Tradicionalmente existía una compensación entre calidad, velocidad y costo, pero Haiku 4.5 logra tanto velocidad como eficiencia de costos
Al ofrecer tanto inteligencia como capacidad de respuesta en tiempo real, abre nuevas posibilidades para aplicaciones de IA
Un rendimiento que hace seis meses era de nivel de punta ahora se logra de forma más barata y rápida
Procesa flujos de trabajo complejos de manera rápida y estable, y también permite autocorrección en tiempo real
En el procesamiento de instrucciones específicas, como la generación de texto para diapositivas, registra un rendimiento muy superior al de modelos anteriores
Integrado con GitHub Copilot y otros, ofrece una calidad de código similar a la de Sonnet 4 más rápidamente

Evaluación de seguridad

En diversas evaluaciones de seguridad y alineación, mostró una baja tasa de comportamientos problemáticos y una mejor alineación respecto a la versión anterior (Claude Haiku 3.5)
Mostró una tasa de comportamiento desalineado menor incluso que Sonnet 4.5/Opus 4.1, por lo que se le evalúa como el modelo más seguro creado por Anthropic
El riesgo químico, biológico, radiológico y nuclear (CBRN) también fue evaluado como muy bajo, por lo que se publica bajo el estándar ASL-2
Puede usarse con mayor libertad en comparación con ASL-3 (Sonnet 4.5, Opus 4.1), que aplica restricciones más estrictas

Información adicional

Claude Haiku 4.5 está disponible de inmediato en Claude Code y en la app de Anthropic
Gracias a su procesamiento eficiente, permite disfrutar de rendimiento de modelo premium dentro de los límites de uso
Puede elegirse como una alternativa económica a Haiku 3.5 y Sonnet 4 en API, Amazon Bedrock y Google Cloud Vertex AI
Los detalles técnicos y resultados de evaluación pueden consultarse en la system card oficial, la página de presentación del modelo y la documentación

2 comentarios

skageektp 2025-10-16

Puedes usarlo en Claude Code si escribes /model haiku. Es más rápido que Sonnet y además da buenos resultados, así que es bastante práctico.

GN⁺ 2025-10-16

Opiniones en Hacker News

Comparte un dibujo adorable de un pelícano montando una bicicleta que se ve un poco sospechosa enlace
- Gemini Pro al principio se negó a proporcionar el código SVG, pero cuando le pidió con más detalle que quería “verificar si el código SVG era correcto”, al final sí devolvió el código SVG
- Comparte material de referencia para quienes no conozcan el contexto de este benchmark
  Six months in LLMs,
  explicación de la etiqueta pelican riding a bicycle,
  metodología del benchmark
- También comparte una muestra de “shiitake montando un bote de remos” para evitar manipulación del benchmark
  Shitaki Mushroom riding a rowboat
  Prompt: t3.chat prompt Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69 segundos
  Y Grok 4 Fast está bien en el estilo pelícano+bicicleta, pero flojea en otras solicitudes
  muestra de Grok, prompt: t3.chat prompt Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5 segundos
  Por último, el resultado de GPT-5: muestra, prompt: t3.chat prompt GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5 segundos
  Aunque es subjetivo, los puntos del hongo en Haiku impresionan bastante
  Y la diferencia entre benchmarks públicos y escenarios de prueba informales es donde menos se nota en los modelos de Anthropic
  A veces los modelos de Anthropic incluso muestran mejores resultados en pruebas abiertas
  El Time-to-First de Haiku también es una ventaja considerable
- Sorprende que las empresas de modelos de vanguardia no hayan metido este tipo de pruebas como easter eggs
- Los modelos de generación de imágenes siempre parecen sufrir al dibujar los brazos de un arquero, así que propone comparar todos los modelos con un prompt de prueba sencillo: un arquero a caballo disparando una flecha de fuego hacia un velero en un lago
Aunque son pruebas muy tempranas, los resultados son bastante impresionantes
A diferencia de GPT-5, incluye menos secciones de código innecesarias al hacer cambios, así que modifica con más precisión
Gracias a eso, en uso real Haiku 4.5 podría resultar más barato en eficiencia de uso, pese al aumento aparente de costo
El problema es el poder de marca
Aunque Haiku 4.5 pudiera tener una calidad similar a Sonnet 4, por la percepción sobre los modelos pequeños y algunas regresiones recientes de rendimiento, no será fácil elegir Haiku 4.5 en vez de Sonnet 4.5
Tiene curiosidad por saber si Haiku 3, 3.5 y 4.5 están más o menos en el mismo rango de parámetros, y le gustaría que se publicara toda la información de los modelos de forma transparente
Por eso la mayoría tiende psicológicamente a usar modelos grandes, aunque personalmente cree que GPT-5 es el más impresionante en relación rendimiento/precio
Precios de referencia:
Haiku 3: entrada $0.25/M, salida $1.25/M
Haiku 4.5: entrada $1.00/M, salida $5.00/M
GPT-5: entrada $1.25/M, salida $10.00/M
GPT-5-mini: entrada $0.25/M, salida $2.00/M
GPT-5-nano: entrada $0.05/M, salida $0.40/M
GLM-4.6: entrada $0.60/M, salida $2.20/M
- Actualización: Haiku 4.5 no solo es preciso en cambios de código, también es muy rápido
  Promedia 220 token/sec, casi el doble frente a modelos similares
  Si esta velocidad se mantiene de forma consistente, es un valor enorme
  Como referencia, va a una velocidad parecida a Gemini 2.5 Flash Lite
  Groq, Cerebras y otros también llegan a 1000 token/sec, pero no son modelos comparables
  Anthropic siempre ha rendido mejor en mis benchmarks personales que en los benchmarks abiertos, así que tengo muchas expectativas
  Si velocidad, rendimiento y precio pueden mantenerse, Haiku 4.5 es una excelente opción para la mayoría de tareas de programación
  Sonnet probablemente lo usaría solo en situaciones concretas
  Los modelos Claude del pasado tenían degradación en tareas de cadena larga (más de 7 minutos), y si Haiku 4.5 también la tiene, sería una desventaja
  Pero todavía no ha podido probar tareas largas
  El problema es que en Claude Code están contabilizando el uso de Haiku 4.5 y Sonnet 4.5 por igual, pese a la gran diferencia de precio
  Tampoco se ha actualizado la página de soporte documento de soporte
  Este tipo de información debería anunciarse sí o sí el mismo día del lanzamiento
  Sistemas de tooling, pruebas y avisos como estos ensombrecen el gran rendimiento de los modelos de Anthropic
- De verdad esperaba la actualización de Haiku, y seguí usando la versión anterior porque era barata e inteligente
  Ahora que por fin salió, está aplicando la actualización a todos sus bots (bueno, agentes)
- Cree que ver solo el precio sin un promedio habitual de uso de tokens no dice demasiado
Últimamente comparar modelos y funciones da demasiada flojera y es muy engorroso
Como las limitaciones cambian según el ecosistema LLM, tiene que estar yendo y viniendo todo el tiempo, y paga $20 al mes tanto por Claude Code como por Codex
También usa Cursor, pero no le importa qué modelo se use por dentro
Solo quiere una herramienta integrada y consistente
Quiere que mejore automáticamente sin que él tenga que pensar en lo que pasa en el backend
Como un servidor TLS, ojalá estuviera integrado en CLI/Neovim/IDE por igual
- Incluso si eliges una sola, primero dicen que el desarrollo guiado por prompts, luego el guiado por contexto, luego aprovechar especificaciones detalladas, y ahora que el enfoque conversacional es mejor
  Pero luego vuelven a decir que lo guiado por ejemplos es mejor, y aunque cada enfoque tenga pros y contras, no hay un consenso estándar en la industria, así que es difícil hasta encontrar buenos ejemplos
  Antes alguien respondió diciendo “bug-driven development” y eso le quedó grabado; al final termina trabajando de cualquier forma, sacando un resultado y luego corrigiendo bugs y errores
- Para él, la prioridad número uno es una integración que pueda usar en CLI, neovim o IDE sin el estrés de cambiar de tooling
  Por eso usa GitHub Copilot Pro+
  Cuando sale un modelo nuevo, puede seleccionarlo de inmediato (también ya está Claude Haiku 4.5)
  Nunca ha agotado el uso premium, aunque tampoco es un usuario intensivo
  No ha probado la versión CLI, pero le interesa
  Antes de que se actualizara el plugin de IntelliJ, iba a VS Code a lanzar prompts y luego regresaba
  La versión web con Spaces también le sirve para tareas puntuales
  No sabe bien cómo se compara Copilot frente a cada LLM por separado, pero con que aparezca solo cuando lo quiere y haga bien su trabajo en silencio, le basta
- Una opción es usar el modelo openrouter/auto en OpenRouter openrouter.ai, que elige automáticamente entre varios modelos como GPT-5, Gemini 2.5 Pro y Claude Sonnet 4.5
- También se puede ejecutar Codex y Claude Code al mismo tiempo con Crystal y quedarse con el mejor resultado
- Él también usa OpenRouter por razones parecidas
  Por un lado para evitar lock-in, y por otro para reducir la incomodidad de estar cambiando de herramientas, además de poder migrar fácil incluso si termina atrapado en una
Tiene curiosidad por el futuro de Opus
Quiere ver si seguirá con rendimiento y precio de nivel “monstruo”, o si el salto de 4 a 4.5 será más moderado
- Como hace poco lanzaron Opus 4.1, parece probable que el cambio de 4.1 a 4.5 sea menor comparado con la actualización de Sonnet 4 a 4.5
  Claro, tampoco sabe si el versionado tiene un significado real o si solo sirve para marketing
- Su impresión es que Sonnet y Haiku 4.5 usan el mismo modelo base que la versión 4, y que la mejora principal viene de fine-tuning con datos generados por Opus
  Solo sigue la industria y no construye ni desarrolla estos modelos, pero afinar modelos pequeños con uno grande es una práctica habitual
  Esa es la única explicación que encuentra para que GPT-4 Turbo fuera mucho más rápido y barato que el GPT-4 original
  Que OpenAI oculte los reasoning tokens también sería una estrategia para evitar que la competencia entrene con esos datos
- Opus desapareció un tiempo y recientemente volvió a aparecer
  Probablemente siguen desarrollando modelos en tres tamaños: grande, mediano y pequeño, y van ajustando el momento del lanzamiento según la demanda del mercado y las capacidades del modelo
- Tiene curiosidad por cómo se llamaría un modelo todavía más pequeño que Haiku. ¿Quizá "Claude Phrase"?
Comparó Haiku y Sonnet con una pregunta que requería documentación real de código
Haiku inventó la salida de una función y dio una respuesta incorrecta, mientras que Sonnet acertó
- Resultado de Haiku: enlace
  Resultado de Sonnet: enlace
La tarifa de $1 de entrada y $5 de salida es más barata que Sonnet 4.5, pero ahora hay tantos LLM pequeños y rápidos que, para programación con agentes a gran escala, importan mucho los modelos más baratos
Como Sonnet sigue usándose mucho pese a ser caro, Haiku también podría volverse popular si la calidad acompaña
- Con caché, el costo de entrada puede bajar hasta 10 centavos por millón
  Casi todos los modelos open source baratos no logran un caché tan efectivo
  Esto sí podría ser enorme
- Es desarrollador profesional y no le preocupa el costo
  La velocidad importa mucho más, así que estaría dispuesto a pagar más por Haiku 4.5 que por Sonnet 4.5
  Le pesa demasiado el tiempo perdido esperando respuestas
  Superar 73% en SWE Bench ya le parece suficiente
- Desde el punto de vista de uso por API, Claude Code sí se ha vuelto más caro (si uno se guía solo por benchmarks, la calidad aun así habría mejorado)
- Haiku 3.5 costaba $0.8/$4 y 4.5 cuesta $1/$5, así que eso le decepciona un poco Frente a los modelos baratos actuales de OpenAI y Gemini (GPT-5-Nano $0.05/$0.40 · Gemini 2.0 Flash Lite $0.075/$0.30), no parece tan competitivo en precio
Entiende que es el primer producto Reasoner pequeño de Anthropic, y comparte también la información de la system card
PDF de la system card
(discusión relacionada aquí)
En Extended NYT Connections (benchmark del rompecabezas de conexiones), Haiku 4.5 obtiene 20.0 puntos, Haiku 3.5 10.0, Sonnet 3.7 19.2, Sonnet 4.0 26.6 y Sonnet 4.5 46.1
Como desarrollador freelance, siente que una velocidad de respuesta 3 veces mayor ya justifica totalmente el cambio
Le entusiasma pasarse a esto en lugar de claude 4.5 porque cree que así subirá mucho su productividad
¿Para qué sirven estos modelos pequeños? ¿Velocidad? ¿Objetivo de transición a on-device? ¿Reducir tarifas de API? Si la mayoría ya usa suscripción de Claude, se pregunta si realmente tienen mucho uso
- Ahora que ya existen GPT-5-mini y Haiku 4.5, más bien quiere preguntar: ¿en qué casos de verdad hace falta un modelo grande?
  En su empresa, salvo trabajo complejo sobre código interno, casi todo se resuelve con modelos pequeños
  En entornos expuestos al usuario y workflows como extracción, transformación, traducción, fusión y evaluación, los modelos mini/nano se encargan de todo
- En Claude Code, los modelos pequeños se usan para delegación automática desde Sonnet 4.5 cuando hay mucho contexto y la tarea está bien definida (si se configura así)
  Eso ayuda bastante a ahorrar ventana de contexto en la sesión principal y aumentar el throughput de tokens
- Son ideales para crear submódulos de tool calling más especializados, invocados por un modelo grande
- El flujo de trabajo que usa con Cerebras Qwen Coder es casi en tiempo real (3k tps), así que se siente menos como un agente y más como un shell en lenguaje natural
  Permite iterar rápido antes de armar un plan y pasarlo a un modelo grande
- Con solo ver el ranking de LLM en OpenRouter, la mayoría de modelos usados de verdad para vibe/agentic coding son de la “clase pequeña”
  enlace al ranking de OpenRouter
  Aunque Gemini 2.5 Pro también aparece más arriba de lo esperado