Unas palabras sobre DS4
(antirez.com)- DwarfStar 4 se difundió más rápido de lo esperado y dejó ver la demanda por una experiencia de IA local centrada en un solo modelo
- En esa rápida adopción influyeron DeepSeek v4 Flash y la cuantización asimétrica de 2/8 bits, haciendo posible ejecutarlo con 96 GB o 128 GB de RAM
- DS4 no es un proyecto atado a un modelo específico, sino que busca poner en el centro modelos abiertos de pesos recientes y rápidos en equipos GPU in a box
- En inferencia local, parece tener sentido usar modelos especializados como ds4-coding, ds4-legal y ds4-medical según la pregunta
- Los próximos enfoques serán benchmarks de calidad, agentes de código, CI basada en hardware doméstico, más ports e inferencia distribuida serial y paralela
La rápida difusión de DS4 y su contexto
- DwarfStar 4 ganó popularidad más rápido de lo esperado y mostró la demanda por una experiencia de IA local enfocada en la integración de un solo modelo
- En esa rápida difusión influyeron conjuntamente la aparición de modelos casi frontier como DeepSeek v4 Flash, un nivel de rendimiento y velocidad lo bastante grande como para cambiar el panorama de la inferencia local, y una fuerte combinación de cuantización asimétrica de 2/8 bits
- Esta combinación hizo posible ejecutar el modelo con solo 96 GB o 128 GB de RAM
- La experiencia acumulada del movimiento de IA local durante los últimos años influyó en la velocidad de desarrollo de DS4, y parece que habría sido difícil construirlo en una semana sin la ayuda de GPT 5.5
- La primera semana fue divertida pero agotadora, con un promedio de 14 horas de trabajo al día, con una intensidad similar a los primeros meses de Redis
Hacia dónde va
- DS4 no es un proyecto que empiece y termine con DeepSeek v4 Flash; con el tiempo, el modelo central puede cambiar
- La meta es colocar en el centro de DS4 modelos abiertos de pesos recientes que realmente corran rápido en equipos “GPU in a box” como Macs de alto rendimiento o DGX Spark
- El siguiente candidato es DeepSeek v4 Flash, que se publicará como un nuevo checkpoint, y también son posibles una versión para código o variantes expertas para áreas como derecho y medicina
- En inferencia local, parece tener sentido llamar modelos como ds4-coding, ds4-legal y ds4-medical según la pregunta
- Puede decirse que esta es la primera vez que se delega a un modelo local trabajo serio que antes se le preguntaba a Claude o GPT
- Gracias al vector steering, también se volvió posible una experiencia de uso mucho más libre del LLM, y DS4 ofrece una experiencia mucho más cercana a los modelos frontier en línea que a los pequeños modelos locales
- Después de unos días iniciales caóticos, el proyecto planea enfocarse en benchmarks de calidad, agentes de código, pruebas de CI basadas en hardware doméstico, más ports e inferencia distribuida
- La inferencia distribuida incluye tanto el modo serial como el paralelo, y sigue siendo una tarea importante para el futuro
- La IA es demasiado importante como para quedarse solo como un servicio provisto
1 comentarios
Comentarios en Hacker News
DwarfStar4 es un pequeño runtime de inferencia para LLM que puede ejecutar DeepSeek 4, y según la entrada del blog, por ahora parece requerir 96 GB de VRAM
Esto es una explicación para quienes no tienen suficiente contexto :-)
Parece que podría funcionar, aunque algo más lento, trayendo capas del modelo desde el almacenamiento
Tengo mucha curiosidad por saber en qué punto la inteligencia necesaria para programar llega a ser “suficiente”
Llegará un momento en que un modelo menos inteligente pueda alcanzar el mismo resultado si se le deja más tiempo dándole vueltas al problema, y si yo no intervengo, al final sería lo mismo
DeepSeek V4 Pro da la impresión de estar casi en ese punto, y quizá Flash también
También me pregunto cuánto del modelo de negocio actual de Anthropic se vendría abajo cuando se llegue a ese punto
Hasta ahora, claramente valía la pena pagar por el modelo más inteligente, pero ahora parece evidente que el margen de crecimiento de esa idea es limitado
La pregunta es cuánto le queda de pista, y si Anthropic está ampliándose con urgencia hacia empresas y productividad porque ya ve venir esta tendencia
No parece ser solo cuestión de esperar más tiempo
Es el equilibrio entre tiempo del desarrollador, costo del desarrollador, costo de la IA y productividad del desarrollador
Si vemos 4.6, para una empresa promedio parece estar cerca del límite de tolerancia de costo, así que tendrían que cambiar otras variables
Los resultados fueron decentes, pero la puntuación quedó bastante por debajo de Opus, y aun aplicando el precio promocional actual de lanzamiento de Deepseek, el costo terminaba siendo casi el mismo
Esa estructura de costos es interesante; vi algo parecido también entre Sonnet y Opus, y en benchmarks propios hubo modelos cuyo precio parecía bueno, pero usaban tantos tokens que terminaban costando lo mismo que modelos “más caros”
[1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
¿Para qué hacer esperar a los programadores?
Qué bueno encontrar una herramienta tan enfocada
El backend principal está orientado a Metal, empezando desde MacBook con 96 GB de RAM
NVIDIA CUDA pone especial atención en DGX Spark, y AMD ROCm solo se soporta en la rama
rocmComo antirez no tiene acceso directo al hardware, está separado de main y la comunidad lo rebasea cuando hace falta
Este proyecto no habría existido sin llama.cpp y GGML, y también dicen que vale la pena leer la sección de agradecimientos
Pero por ahora parece que todavía no soporta offloading a RAM del sistema[0]
Así que también habrá que seguir de cerca el issue de llama.cpp[1]
[0] https://github.com/antirez/ds4/issues/108
[1] https://github.com/ggml-org/llama.cpp/issues/22319
rocm; me pregunto si alguien realmente lo ha probadoEste hilo habla mucho de MacBook Pro, pero me gustaría probarlo en un AMD Halo Strix con 128 GB de memoria unificada
Probé la versión Q4 por red local en una Mac Studio y estuvo bien
Incluso tuve esa experiencia de usarlo con varios agentes y olvidarme por primera vez de que era un modelo local porque hacía el trabajo demasiado bien
Aun así, me pregunto si realmente hace falta otro agente
Lo ejecuté con Pi, pero el system prompt de Claude Code es demasiado pesado si consideras la velocidad de prefill, aunque el resultado fue excelente
OpenCode también es una buena opción
Me pregunto si realmente se gana algo creando otra herramienta parecida dedicada solo a Deepseek 4
Pero si sigues la idea misma de DS4, los agentes vía API terminan haciendo cosas raras como traducir sintaxis DSML a JSON, y eso provoca problemas de normalización o de checkpointing de caché KV
Independientemente de si eso pasa de verdad o no, igual tiene valor ofrecer una alternativa más normal
Tampoco entiendo muy bien por qué en este campo no se intenta escribir más cosas en C/Go/Rust para ganar control, velocidad y menos dependencias
Incluso del lado TUI hay mucho que se puede imaginar
La mayoría de los proyectos tienen el problema de copiar exactamente lo que ya vieron; por ejemplo, esto lo hicieron en 20 minutos: https://x.com/antirez/status/2055190821373116619
Ahora el código es barato, y el valor de las ideas ha subido más
Ya no estoy seguro de que hoy siga teniendo sentido pensar en términos de “¿hace falta otro XYZ?”
Puede valer la pena aunque sea solo para explorar ideas nuevas
Personalmente no me gusta usar el ecosistema JavaScript / Node para código, así que al explorar nuevos TUI o flujos de trabajo con agentes, hacerlo con herramientas más cómodas cambia tanto el resultado como el proceso iterativo
Proporciona un servidor de API de inferencia, y conectas ahí el harness de programación
Ahora mismo no puedo usarlo por hardware, pero me gusta. Solo tengo una M2 Max con 96 GB
Entiendo que en hardware de usuario común o computadoras masivas no se pueda usar o se vea peor
Me recuerda a cuando las computadoras domésticas antiguas eran vistas como juguetes antes de convertirse en computadoras personales
En mi hardware actual, la combinación más utilizable es pi agent + llama.cpp + nemotron cascade-2
Puede llegar a 1M de contexto, y al ser una arquitectura híbrida no se derrumba como 1/N² en profundidades de contexto de 10K, 50K o 100K que usan los agentes de código
Hace unos días, en un vuelo, pude correr pi agent con serving de llama.cpp sin internet, y apenas era usable con unas 40~30 tokens/segundo, lo cual me hizo gracia
Normalmente entiendo que la velocidad por API es el doble, como 60~80 tokens/segundo
Durante la inferencia, los sensores mostraban un consumo de 60 W, y la batería probablemente no aguantaría más de 3 horas
El modelo es solo de 30B, así que sobra espacio para la caché KV y otros programas, y se comporta bien incluso con cuantización generosa de 8 bits
Un MoE A3B con solo 3B de parámetros activados a la vez parece ser el máximo que una M2 Max envejecida puede manejar
DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.ggufsí cabe dentro de 96 GB de VRAM incluso incluyendo el contextoAsí que, a menos que macOS use por defecto varios GB de RAM/VRAM para el SO o la pantalla, en teoría debería ser posible
Hay algunos reportes positivos
Aunque la M2 Max sí es algo lenta
Sorprende lo cerca que se siente de Claude
Claro, es mucho más lento, pero no sé si es tanto más tonto
Curiosamente, la cuantización imatrix parece mejor que cualquier cuantización usada por el backend de inferencia zdr de OpenRouter
Ayer incluso se dio cuenta por sí solo de que su proceso de servidor era él mismo, sin que yo tuviera que decírselo; es la primera vez que veo algo así en un modelo local
Es mucho más lento, pero con la promoción actual también es varias veces más barato
No parece estar explicado por qué hay que hacer un motor de inferencia nuevo para cada modelo
Se podría simplemente usar llama.cpp, y ya mucha gente está trabajando en integraciones con llama.cpp
Es invertir mucho esfuerzo en un solo modelo, y si sale otro mejor, podría quedar obsoleto muy rápido
En algunas discusiones, la gente está haciendo PR tanto para la rama de llama.cpp como para ds4, así que ese talento escaso que invierte tiempo de desarrollo en este modelo se está fragmentando
Aun así, está bien. La gente llevará ese trabajo a llama.cpp y todos ganarán
La experiencia de usuario de ds4 también es excelente. Es muy fácil obtener un modelo validado y una buena cuantización
llama.cpp tiene demasiados knobs y se siente mucho más como hackear en un páramo
Si eso es verdad o no, lo veremos dentro de unos años
Si alguien quiere subir soporte para ese proyecto upstream, es libre de hacerlo, y el código tiene licencia MIT
Un proyecto más nuevo y pequeño puede moverse más rápido
DeepSeekV4 Pro es un modelo realmente competente, y es muy bueno sobre todo por el precio al que se ofrece
Estoy trasteando con un motor 2.5D sobre raylib en C y usando DeepSeek como asistente
En OpenaCode, el registro del proceso de razonamiento se ve de forma transparente, y observar ese razonamiento ha sido sorprendente
Es muy largo de leer, pero no hubo partes inútiles o sin sentido
DeepSeek siempre marcaba en su razonamiento supuestos que yo no había considerado o en los que estaba equivocado, y en la salida final se alineaba con mi flawed request
Entonces yo volvía a indicarle algo como: “espera, tú también pensabas eso, tenías razón y yo me equivoqué, así que consideremos ese aspecto también”
Estaría bien poder correr algo así no solo en mi computadora, sino también en proyectos de clientes o en GPU en la nube
La idea central de poder usar un modelo potente de forma eficiente y sin clústeres sigue aplicando a muchos casos de negocio
Espero que este enfoque también funcione en modo batch
Ahora mismo, en una H200, para llamadas de herramientas agenticas en agentes de voz inteligentes, siento que uno de los mejores sigue siendo Qwen 3.6 27B de 4 bits con MTP
Si DS4 Flash es 80B a 2 bits, 13B activos y con estructura MTP, me pregunto si podría ser más rápido y más inteligente, además de permitir más secuencias concurrentes
Esa cuantización especial de 2 bits parece bastante importante
Al ver qué tan rápido están subiendo el rendimiento y la velocidad en modelos locales, llámese “inteligencia” o como se quiera, me pregunto cuál será la tasa de crecimiento y dónde estará el techo en este campo
¿Dentro de algunos años será posible tener este nivel de inteligencia y rendimiento, por ejemplo, con solo 16 GB de RAM?
¿Podríamos definir aquí algún nuevo tipo de ley de Moore?
Haría falta una innovación de arquitectura, de hardware, o algún avance en técnicas de cuantización
El problema es que todos los parámetros tienen que estar en memoria, incluso los que no se activan
Incluso en modelos de mezcla de expertos, mover parámetros dentro y fuera de la RAM es demasiado lento
Los cuervos muestran cierto grado de inteligencia con cerebros muchísimo más pequeños que los humanos, y hay una zona de solapamiento entre la capacidad de resolución de problemas del humano más torpe y del cuervo más inteligente
Así que esa es la pregunta: qué es exactamente eso
Yann LeCun parece pensar que es lo que hoy llamamos un modelo del mundo
Un modelo del mundo no predice datos estructurados como el lenguaje, sino acciones
Si puedes predecir cómo funciona un mundo, en teoría puedes inferir causa y efecto
Si se pudiera combinar ese razonamiento de causa y efecto con el lenguaje, quizá saldría algo más cercano a la inteligencia real
Parece que la dirección va hacia ahí
Cuando aparezcan prototipos de esos sistemas, surgirán muchas preguntas sobre cuántos datos hacen falta realmente
Ya vimos que, aun reduciendo LLM con cuantización de 1 bit, pueden salir modelos con una comprensión del lenguaje bastante fuerte
No me parece irracional pensar que en los próximos años veremos sistemas de IA muy inteligentes con memorias relativamente bajas