- Claude Haiku 4.5 ofrece rendimiento de código al nivel de Claude Sonnet 4 a pesar de ser un modelo pequeño, con un tercio del costo y más del doble de velocidad
- En benchmarks reales de desarrollo como SWE-bench Verified, muestra eficiencia y capacidad de respuesta en programación con IA superiores a las de la generación anterior
- En combinación con Sonnet 4.5, permite una configuración multiagente o la ejecución dividida de problemas complejos, y es adecuado para trabajo en tiempo real y entornos de baja latencia
- En chatbots en tiempo real, soporte al cliente y pair programming, se pueden aprovechar las ventajas de su alta inteligencia y velocidad
- Según las evaluaciones de seguridad, mostró el nivel de alineación más alto entre los modelos de Anthropic y se publica bajo el estándar AI Safety Level 2 (ASL-2)
- $1/$5 por millón de tokens de entrada/salida
Introducción
- Claude Haiku 4.5 es la más reciente línea de modelos pequeños de Anthropic, diseñada para equilibrar rendimiento, velocidad y eficiencia de costos para todos los usuarios
- Muestra capacidades de programación similares a Claude Sonnet 4, pero con un costo de un tercio y una velocidad de más del doble
- En ciertas tareas, como el uso de computadora, incluso supera a Sonnet 4
- En especial, en herramientas en tiempo real como Claude for Chrome o Claude Code, ofrece un entorno de asistencia con IA sin latencia
Características principales y casos de uso
- Es adecuado para trabajo en tiempo real y de baja latencia, por lo que ofrece alta eficiencia en chatbots, atención al cliente y pair programming
- Para los usuarios de Claude Code, ofrece un rendimiento ideal con respuesta rápida en proyectos multiagente y prototipado rápido
- Actualmente Sonnet 4.5 sigue siendo el modelo de gama más alta, pero Haiku 4.5 ofrece un rendimiento similar con mayor eficiencia de costos
- También se pueden usar ambos modelos juntos; por ejemplo, Sonnet 4.5 puede descomponer un problema complejo y varios Haiku 4.5 pueden procesar subtareas en paralelo
- Claude Haiku 4.5 está disponible desde hoy en todo el mundo, y los desarrolladores pueden usarlo de inmediato en Claude API como
claude-haiku-4-5
- El precio es de $1/$5 por millón de tokens de entrada/salida
Benchmarks y evaluación de usuarios
- Haiku 4.5 es uno de los modelos más potentes lanzados por Anthropic
- Varias empresas como Augment, Warp y Gamma mencionan que en pruebas reales confirmaron más del 90% de la calidad de código frente a Sonnet 4.5
- Muestra avances notables en programación agéntica, coordinación de subagentes y tareas de uso de computadora, maximizando la inmediatez de la experiencia de desarrollo
- Tradicionalmente existía una compensación entre calidad, velocidad y costo, pero Haiku 4.5 logra tanto velocidad como eficiencia de costos
- Al ofrecer tanto inteligencia como capacidad de respuesta en tiempo real, abre nuevas posibilidades para aplicaciones de IA
- Un rendimiento que hace seis meses era de nivel de punta ahora se logra de forma más barata y rápida
- Procesa flujos de trabajo complejos de manera rápida y estable, y también permite autocorrección en tiempo real
- En el procesamiento de instrucciones específicas, como la generación de texto para diapositivas, registra un rendimiento muy superior al de modelos anteriores
- Integrado con GitHub Copilot y otros, ofrece una calidad de código similar a la de Sonnet 4 más rápidamente
Evaluación de seguridad
- En diversas evaluaciones de seguridad y alineación, mostró una baja tasa de comportamientos problemáticos y una mejor alineación respecto a la versión anterior (Claude Haiku 3.5)
- Mostró una tasa de comportamiento desalineado menor incluso que Sonnet 4.5/Opus 4.1, por lo que se le evalúa como el modelo más seguro creado por Anthropic
- El riesgo químico, biológico, radiológico y nuclear (CBRN) también fue evaluado como muy bajo, por lo que se publica bajo el estándar ASL-2
- Puede usarse con mayor libertad en comparación con ASL-3 (Sonnet 4.5, Opus 4.1), que aplica restricciones más estrictas
Información adicional
- Claude Haiku 4.5 está disponible de inmediato en Claude Code y en la app de Anthropic
- Gracias a su procesamiento eficiente, permite disfrutar de rendimiento de modelo premium dentro de los límites de uso
- Puede elegirse como una alternativa económica a Haiku 3.5 y Sonnet 4 en API, Amazon Bedrock y Google Cloud Vertex AI
- Los detalles técnicos y resultados de evaluación pueden consultarse en la system card oficial, la página de presentación del modelo y la documentación
2 comentarios
Puedes usarlo en Claude Code si escribes
/model haiku. Es más rápido que Sonnet y además da buenos resultados, así que es bastante práctico.Opiniones en Hacker News
Comparte un dibujo adorable de un pelícano montando una bicicleta que se ve un poco sospechosa enlace
Six months in LLMs,
explicación de la etiqueta pelican riding a bicycle,
metodología del benchmark
Shitaki Mushroom riding a rowboat
Prompt: t3.chat prompt Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69 segundos
Y Grok 4 Fast está bien en el estilo pelícano+bicicleta, pero flojea en otras solicitudes
muestra de Grok, prompt: t3.chat prompt Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5 segundos
Por último, el resultado de GPT-5: muestra, prompt: t3.chat prompt GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5 segundos
Aunque es subjetivo, los puntos del hongo en Haiku impresionan bastante
Y la diferencia entre benchmarks públicos y escenarios de prueba informales es donde menos se nota en los modelos de Anthropic
A veces los modelos de Anthropic incluso muestran mejores resultados en pruebas abiertas
El Time-to-First de Haiku también es una ventaja considerable
Aunque son pruebas muy tempranas, los resultados son bastante impresionantes
A diferencia de GPT-5, incluye menos secciones de código innecesarias al hacer cambios, así que modifica con más precisión
Gracias a eso, en uso real Haiku 4.5 podría resultar más barato en eficiencia de uso, pese al aumento aparente de costo
El problema es el poder de marca
Aunque Haiku 4.5 pudiera tener una calidad similar a Sonnet 4, por la percepción sobre los modelos pequeños y algunas regresiones recientes de rendimiento, no será fácil elegir Haiku 4.5 en vez de Sonnet 4.5
Tiene curiosidad por saber si Haiku 3, 3.5 y 4.5 están más o menos en el mismo rango de parámetros, y le gustaría que se publicara toda la información de los modelos de forma transparente
Por eso la mayoría tiende psicológicamente a usar modelos grandes, aunque personalmente cree que GPT-5 es el más impresionante en relación rendimiento/precio
Precios de referencia:
Haiku 3: entrada $0.25/M, salida $1.25/M
Haiku 4.5: entrada $1.00/M, salida $5.00/M
GPT-5: entrada $1.25/M, salida $10.00/M
GPT-5-mini: entrada $0.25/M, salida $2.00/M
GPT-5-nano: entrada $0.05/M, salida $0.40/M
GLM-4.6: entrada $0.60/M, salida $2.20/M
Promedia 220 token/sec, casi el doble frente a modelos similares
Si esta velocidad se mantiene de forma consistente, es un valor enorme
Como referencia, va a una velocidad parecida a Gemini 2.5 Flash Lite
Groq, Cerebras y otros también llegan a 1000 token/sec, pero no son modelos comparables
Anthropic siempre ha rendido mejor en mis benchmarks personales que en los benchmarks abiertos, así que tengo muchas expectativas
Si velocidad, rendimiento y precio pueden mantenerse, Haiku 4.5 es una excelente opción para la mayoría de tareas de programación
Sonnet probablemente lo usaría solo en situaciones concretas
Los modelos Claude del pasado tenían degradación en tareas de cadena larga (más de 7 minutos), y si Haiku 4.5 también la tiene, sería una desventaja
Pero todavía no ha podido probar tareas largas
El problema es que en Claude Code están contabilizando el uso de Haiku 4.5 y Sonnet 4.5 por igual, pese a la gran diferencia de precio
Tampoco se ha actualizado la página de soporte documento de soporte
Este tipo de información debería anunciarse sí o sí el mismo día del lanzamiento
Sistemas de tooling, pruebas y avisos como estos ensombrecen el gran rendimiento de los modelos de Anthropic
Ahora que por fin salió, está aplicando la actualización a todos sus bots (bueno, agentes)
Últimamente comparar modelos y funciones da demasiada flojera y es muy engorroso
Como las limitaciones cambian según el ecosistema LLM, tiene que estar yendo y viniendo todo el tiempo, y paga $20 al mes tanto por Claude Code como por Codex
También usa Cursor, pero no le importa qué modelo se use por dentro
Solo quiere una herramienta integrada y consistente
Quiere que mejore automáticamente sin que él tenga que pensar en lo que pasa en el backend
Como un servidor TLS, ojalá estuviera integrado en CLI/Neovim/IDE por igual
Pero luego vuelven a decir que lo guiado por ejemplos es mejor, y aunque cada enfoque tenga pros y contras, no hay un consenso estándar en la industria, así que es difícil hasta encontrar buenos ejemplos
Antes alguien respondió diciendo “bug-driven development” y eso le quedó grabado; al final termina trabajando de cualquier forma, sacando un resultado y luego corrigiendo bugs y errores
Por eso usa GitHub Copilot Pro+
Cuando sale un modelo nuevo, puede seleccionarlo de inmediato (también ya está Claude Haiku 4.5)
Nunca ha agotado el uso premium, aunque tampoco es un usuario intensivo
No ha probado la versión CLI, pero le interesa
Antes de que se actualizara el plugin de IntelliJ, iba a VS Code a lanzar prompts y luego regresaba
La versión web con
Spacestambién le sirve para tareas puntualesNo sabe bien cómo se compara Copilot frente a cada LLM por separado, pero con que aparezca solo cuando lo quiere y haga bien su trabajo en silencio, le basta
Por un lado para evitar lock-in, y por otro para reducir la incomodidad de estar cambiando de herramientas, además de poder migrar fácil incluso si termina atrapado en una
Tiene curiosidad por el futuro de Opus
Quiere ver si seguirá con rendimiento y precio de nivel “monstruo”, o si el salto de 4 a 4.5 será más moderado
Claro, tampoco sabe si el versionado tiene un significado real o si solo sirve para marketing
Solo sigue la industria y no construye ni desarrolla estos modelos, pero afinar modelos pequeños con uno grande es una práctica habitual
Esa es la única explicación que encuentra para que GPT-4 Turbo fuera mucho más rápido y barato que el GPT-4 original
Que OpenAI oculte los reasoning tokens también sería una estrategia para evitar que la competencia entrene con esos datos
Probablemente siguen desarrollando modelos en tres tamaños: grande, mediano y pequeño, y van ajustando el momento del lanzamiento según la demanda del mercado y las capacidades del modelo
Comparó Haiku y Sonnet con una pregunta que requería documentación real de código
Haiku inventó la salida de una función y dio una respuesta incorrecta, mientras que Sonnet acertó
Resultado de Sonnet: enlace
La tarifa de $1 de entrada y $5 de salida es más barata que Sonnet 4.5, pero ahora hay tantos LLM pequeños y rápidos que, para programación con agentes a gran escala, importan mucho los modelos más baratos
Como Sonnet sigue usándose mucho pese a ser caro, Haiku también podría volverse popular si la calidad acompaña
Casi todos los modelos open source baratos no logran un caché tan efectivo
Esto sí podría ser enorme
La velocidad importa mucho más, así que estaría dispuesto a pagar más por Haiku 4.5 que por Sonnet 4.5
Le pesa demasiado el tiempo perdido esperando respuestas
Superar 73% en SWE Bench ya le parece suficiente
Entiende que es el primer producto Reasoner pequeño de Anthropic, y comparte también la información de la system card
PDF de la system card
(discusión relacionada aquí)
En Extended NYT Connections (benchmark del rompecabezas de conexiones), Haiku 4.5 obtiene 20.0 puntos, Haiku 3.5 10.0, Sonnet 3.7 19.2, Sonnet 4.0 26.6 y Sonnet 4.5 46.1
Como desarrollador freelance, siente que una velocidad de respuesta 3 veces mayor ya justifica totalmente el cambio
Le entusiasma pasarse a esto en lugar de claude 4.5 porque cree que así subirá mucho su productividad
¿Para qué sirven estos modelos pequeños? ¿Velocidad? ¿Objetivo de transición a on-device? ¿Reducir tarifas de API? Si la mayoría ya usa suscripción de Claude, se pregunta si realmente tienen mucho uso
En su empresa, salvo trabajo complejo sobre código interno, casi todo se resuelve con modelos pequeños
En entornos expuestos al usuario y workflows como extracción, transformación, traducción, fusión y evaluación, los modelos mini/nano se encargan de todo
Eso ayuda bastante a ahorrar ventana de contexto en la sesión principal y aumentar el throughput de tokens
Permite iterar rápido antes de armar un plan y pasarlo a un modelo grande
enlace al ranking de OpenRouter
Aunque Gemini 2.5 Pro también aparece más arriba de lo esperado