Unas palabras sobre DS4

(antirez.com)

1 puntos por GN⁺ 5 시간 전 | 1 comentarios | Compartir por WhatsApp

DwarfStar 4 se difundió más rápido de lo esperado y dejó ver la demanda por una experiencia de IA local centrada en un solo modelo
En esa rápida adopción influyeron DeepSeek v4 Flash y la cuantización asimétrica de 2/8 bits, haciendo posible ejecutarlo con 96 GB o 128 GB de RAM
DS4 no es un proyecto atado a un modelo específico, sino que busca poner en el centro modelos abiertos de pesos recientes y rápidos en equipos GPU in a box
En inferencia local, parece tener sentido usar modelos especializados como ds4-coding, ds4-legal y ds4-medical según la pregunta
Los próximos enfoques serán benchmarks de calidad, agentes de código, CI basada en hardware doméstico, más ports e inferencia distribuida serial y paralela

La rápida difusión de DS4 y su contexto

DwarfStar 4 ganó popularidad más rápido de lo esperado y mostró la demanda por una experiencia de IA local enfocada en la integración de un solo modelo
En esa rápida difusión influyeron conjuntamente la aparición de modelos casi frontier como DeepSeek v4 Flash, un nivel de rendimiento y velocidad lo bastante grande como para cambiar el panorama de la inferencia local, y una fuerte combinación de cuantización asimétrica de 2/8 bits
Esta combinación hizo posible ejecutar el modelo con solo 96 GB o 128 GB de RAM
La experiencia acumulada del movimiento de IA local durante los últimos años influyó en la velocidad de desarrollo de DS4, y parece que habría sido difícil construirlo en una semana sin la ayuda de GPT 5.5
La primera semana fue divertida pero agotadora, con un promedio de 14 horas de trabajo al día, con una intensidad similar a los primeros meses de Redis

Hacia dónde va

DS4 no es un proyecto que empiece y termine con DeepSeek v4 Flash; con el tiempo, el modelo central puede cambiar
La meta es colocar en el centro de DS4 modelos abiertos de pesos recientes que realmente corran rápido en equipos “GPU in a box” como Macs de alto rendimiento o DGX Spark
El siguiente candidato es DeepSeek v4 Flash, que se publicará como un nuevo checkpoint, y también son posibles una versión para código o variantes expertas para áreas como derecho y medicina
En inferencia local, parece tener sentido llamar modelos como ds4-coding, ds4-legal y ds4-medical según la pregunta
Puede decirse que esta es la primera vez que se delega a un modelo local trabajo serio que antes se le preguntaba a Claude o GPT
Gracias al vector steering, también se volvió posible una experiencia de uso mucho más libre del LLM, y DS4 ofrece una experiencia mucho más cercana a los modelos frontier en línea que a los pequeños modelos locales
Después de unos días iniciales caóticos, el proyecto planea enfocarse en benchmarks de calidad, agentes de código, pruebas de CI basadas en hardware doméstico, más ports e inferencia distribuida
La inferencia distribuida incluye tanto el modo serial como el paralelo, y sigue siendo una tarea importante para el futuro
La IA es demasiado importante como para quedarse solo como un servicio provisto

1 comentarios

GN⁺ 5 시간 전

Comentarios en Hacker News

DwarfStar4 es un pequeño runtime de inferencia para LLM que puede ejecutar DeepSeek 4, y según la entrada del blog, por ahora parece requerir 96 GB de VRAM
Esto es una explicación para quienes no tienen suficiente contexto :-)
- Eso no es el modelo completo sino la versión Flash, y la cuantización también está más o menos en nivel Q2~Q3, así que aunque impresiona, es bastante distinto del modelo completo
- Mencionan que requiere 96 GB de VRAM, y me pregunto si alguien lo ha probado en una Mac con menos RAM
  Parece que podría funcionar, aunque algo más lento, trayendo capas del modelo desde el almacenamiento
- Me da curiosidad cómo se diferencia DwarfStar4 de llama.cpp
Tengo mucha curiosidad por saber en qué punto la inteligencia necesaria para programar llega a ser “suficiente”
Llegará un momento en que un modelo menos inteligente pueda alcanzar el mismo resultado si se le deja más tiempo dándole vueltas al problema, y si yo no intervengo, al final sería lo mismo
DeepSeek V4 Pro da la impresión de estar casi en ese punto, y quizá Flash también
También me pregunto cuánto del modelo de negocio actual de Anthropic se vendría abajo cuando se llegue a ese punto
Hasta ahora, claramente valía la pena pagar por el modelo más inteligente, pero ahora parece evidente que el margen de crecimiento de esa idea es limitado
La pregunta es cuánto le queda de pista, y si Anthropic está ampliándose con urgencia hacia empresas y productividad porque ya ve venir esta tendencia
- Los modelos más inteligentes a veces simplemente hacen cosas que los modelos pequeños no pueden hacer
  No parece ser solo cuestión de esperar más tiempo
- Al final siempre va a tratarse del costo
  Es el equilibrio entre tiempo del desarrollador, costo del desarrollador, costo de la IA y productividad del desarrollador
  Si vemos 4.6, para una empresa promedio parece estar cerca del límite de tolerancia de costo, así que tendrían que cambiar otras variables
- El agente de código open source Kilo probó Deepseek v4 Pro y Flash comparándolos con Opus 4.7 y Kimi K2[1]
  Los resultados fueron decentes, pero la puntuación quedó bastante por debajo de Opus, y aun aplicando el precio promocional actual de lanzamiento de Deepseek, el costo terminaba siendo casi el mismo
  Esa estructura de costos es interesante; vi algo parecido también entre Sonnet y Opus, y en benchmarks propios hubo modelos cuyo precio parecía bueno, pero usaban tantos tokens que terminaban costando lo mismo que modelos “más caros”
  [1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
- Para programadores aficionados llegará bastante rápido al nivel de lo suficientemente bueno, pero las empresas probablemente seguirán pagando por modelos más rápidos y más inteligentes
  ¿Para qué hacer esperar a los programadores?
Qué bueno encontrar una herramienta tan enfocada
El backend principal está orientado a Metal, empezando desde MacBook con 96 GB de RAM
NVIDIA CUDA pone especial atención en DGX Spark, y AMD ROCm solo se soporta en la rama rocm
Como antirez no tiene acceso directo al hardware, está separado de main y la comunidad lo rebasea cuando hace falta
Este proyecto no habría existido sin llama.cpp y GGML, y también dicen que vale la pena leer la sección de agradecimientos
Pero por ahora parece que todavía no soporta offloading a RAM del sistema[0]
Así que también habrá que seguir de cerca el issue de llama.cpp[1]
[0] https://github.com/antirez/ds4/issues/108
[1] https://github.com/ggml-org/llama.cpp/issues/22319
- Dicen que AMD ROCm solo se soporta en la rama rocm; me pregunto si alguien realmente lo ha probado
  Este hilo habla mucho de MacBook Pro, pero me gustaría probarlo en un AMD Halo Strix con 128 GB de memoria unificada
- Ojalá todavía fuera posible simplemente comprar una Mac con tanta RAM
Probé la versión Q4 por red local en una Mac Studio y estuvo bien
Incluso tuve esa experiencia de usarlo con varios agentes y olvidarme por primera vez de que era un modelo local porque hacía el trabajo demasiado bien
Aun así, me pregunto si realmente hace falta otro agente
Lo ejecuté con Pi, pero el system prompt de Claude Code es demasiado pesado si consideras la velocidad de prefill, aunque el resultado fue excelente
OpenCode también es una buena opción
Me pregunto si realmente se gana algo creando otra herramienta parecida dedicada solo a Deepseek 4
- En funcionalidad, no hace falta otro agente
  Pero si sigues la idea misma de DS4, los agentes vía API terminan haciendo cosas raras como traducir sintaxis DSML a JSON, y eso provoca problemas de normalización o de checkpointing de caché KV
  Independientemente de si eso pasa de verdad o no, igual tiene valor ofrecer una alternativa más normal
  Tampoco entiendo muy bien por qué en este campo no se intenta escribir más cosas en C/Go/Rust para ganar control, velocidad y menos dependencias
  Incluso del lado TUI hay mucho que se puede imaginar
  La mayoría de los proyectos tienen el problema de copiar exactamente lo que ya vieron; por ejemplo, esto lo hicieron en 20 minutos: https://x.com/antirez/status/2055190821373116619
  Ahora el código es barato, y el valor de las ideas ha subido más
  Ya no estoy seguro de que hoy siga teniendo sentido pensar en términos de “¿hace falta otro XYZ?”
  Puede valer la pena aunque sea solo para explorar ideas nuevas
  Personalmente no me gusta usar el ecosistema JavaScript / Node para código, así que al explorar nuevos TUI o flujos de trabajo con agentes, hacerlo con herramientas más cómodas cambia tanto el resultado como el proceso iterativo
- DS4 es un motor de inferencia, no un harness de ejecución
  Proporciona un servidor de API de inferencia, y conectas ahí el harness de programación
Ahora mismo no puedo usarlo por hardware, pero me gusta. Solo tengo una M2 Max con 96 GB
Entiendo que en hardware de usuario común o computadoras masivas no se pueda usar o se vea peor
Me recuerda a cuando las computadoras domésticas antiguas eran vistas como juguetes antes de convertirse en computadoras personales
En mi hardware actual, la combinación más utilizable es pi agent + llama.cpp + nemotron cascade-2
Puede llegar a 1M de contexto, y al ser una arquitectura híbrida no se derrumba como 1/N² en profundidades de contexto de 10K, 50K o 100K que usan los agentes de código
Hace unos días, en un vuelo, pude correr pi agent con serving de llama.cpp sin internet, y apenas era usable con unas 40~30 tokens/segundo, lo cual me hizo gracia
Normalmente entiendo que la velocidad por API es el doble, como 60~80 tokens/segundo
Durante la inferencia, los sensores mostraban un consumo de 60 W, y la batería probablemente no aguantaría más de 3 horas
El modelo es solo de 30B, así que sobra espacio para la caché KV y otros programas, y se comporta bien incluso con cuantización generosa de 8 bits
Un MoE A3B con solo 3B de parámetros activados a la vez parece ser el máximo que una M2 Max envejecida puede manejar
- No sé si se comporta distinto en macOS, pero con CUDA y DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.gguf sí cabe dentro de 96 GB de VRAM incluso incluyendo el contexto
  Así que, a menos que macOS use por defecto varios GB de RAM/VRAM para el SO o la pantalla, en teoría debería ser posible
- Parece que también debería funcionar en esa computadora
  Hay algunos reportes positivos
- Con 96 GB debería funcionar, sobre todo con contexto limitado
  Aunque la M2 Max sí es algo lenta
Sorprende lo cerca que se siente de Claude
Claro, es mucho más lento, pero no sé si es tanto más tonto
Curiosamente, la cuantización imatrix parece mejor que cualquier cuantización usada por el backend de inferencia zdr de OpenRouter
Ayer incluso se dio cuenta por sí solo de que su proceso de servidor era él mismo, sin que yo tuviera que decírselo; es la primera vez que veo algo así en un modelo local
- Me da curiosidad qué prompt le diste
- Es claramente una prueba anecdótica, pero DeepseekV4 Pro fue mejor que Sonnet en programación
  Es mucho más lento, pero con la promoción actual también es varias veces más barato
No parece estar explicado por qué hay que hacer un motor de inferencia nuevo para cada modelo
Se podría simplemente usar llama.cpp, y ya mucha gente está trabajando en integraciones con llama.cpp
Es invertir mucho esfuerzo en un solo modelo, y si sale otro mejor, podría quedar obsoleto muy rápido
En algunas discusiones, la gente está haciendo PR tanto para la rama de llama.cpp como para ds4, así que ese talento escaso que invierte tiempo de desarrollo en este modelo se está fragmentando
- Es mucho más fácil trabajar sobre una base de código en C enfocada y propia que sobre una base madura y difícil de manejar en C++ que no controlas
  Aun así, está bien. La gente llevará ese trabajo a llama.cpp y todos ganarán
  La experiencia de usuario de ds4 también es excelente. Es muy fácil obtener un modelo validado y una buena cuantización
  llama.cpp tiene demasiados knobs y se siente mucho más como hackear en un páramo
- La premisa parece ser: “el código es barato, la colaboración —por ejemplo, subir cambios upstream— es cara”
  Si eso es verdad o no, lo veremos dentro de unos años
- Como el autor dijo varias veces, los mantenedores de llama.cpp no quieren una gran entrada de código escrito por IA que no haya sido revisado por humanos
  Si alguien quiere subir soporte para ese proyecto upstream, es libre de hacerlo, y el código tiene licencia MIT
- A partir de cierto punto, el nivel de abstracción y generalización que requieren proyectos grandes y flexibles como llama.cpp o Linux hace que el número de archivos explote
  Un proyecto más nuevo y pequeño puede moverse más rápido
DeepSeekV4 Pro es un modelo realmente competente, y es muy bueno sobre todo por el precio al que se ofrece
Estoy trasteando con un motor 2.5D sobre raylib en C y usando DeepSeek como asistente
En OpenaCode, el registro del proceso de razonamiento se ve de forma transparente, y observar ese razonamiento ha sido sorprendente
Es muy largo de leer, pero no hubo partes inútiles o sin sentido
DeepSeek siempre marcaba en su razonamiento supuestos que yo no había considerado o en los que estaba equivocado, y en la salida final se alineaba con mi flawed request
Entonces yo volvía a indicarle algo como: “espera, tú también pensabas eso, tenías razón y yo me equivoqué, así que consideremos ese aspecto también”
Estaría bien poder correr algo así no solo en mi computadora, sino también en proyectos de clientes o en GPU en la nube
La idea central de poder usar un modelo potente de forma eficiente y sin clústeres sigue aplicando a muchos casos de negocio
Espero que este enfoque también funcione en modo batch
Ahora mismo, en una H200, para llamadas de herramientas agenticas en agentes de voz inteligentes, siento que uno de los mejores sigue siendo Qwen 3.6 27B de 4 bits con MTP
Si DS4 Flash es 80B a 2 bits, 13B activos y con estructura MTP, me pregunto si podría ser más rápido y más inteligente, además de permitir más secuencias concurrentes
Esa cuantización especial de 2 bits parece bastante importante
Al ver qué tan rápido están subiendo el rendimiento y la velocidad en modelos locales, llámese “inteligencia” o como se quiera, me pregunto cuál será la tasa de crecimiento y dónde estará el techo en este campo
¿Dentro de algunos años será posible tener este nivel de inteligencia y rendimiento, por ejemplo, con solo 16 GB de RAM?
¿Podríamos definir aquí algún nuevo tipo de ley de Moore?
- Siendo sinceros, hoy por hoy no es posible o no es realista meter modelos así en 16 GB, incluyendo incluso ese “olor a modelo grande”
  Haría falta una innovación de arquitectura, de hardware, o algún avance en técnicas de cuantización
  El problema es que todos los parámetros tienen que estar en memoria, incluso los que no se activan
  Incluso en modelos de mezcla de expertos, mover parámetros dentro y fuera de la RAM es demasiado lento
- La gente que trabaja en la frontera de este campo parece pensar que hacen falta modelos paralelos que resuelvan problemas distintos
  Los cuervos muestran cierto grado de inteligencia con cerebros muchísimo más pequeños que los humanos, y hay una zona de solapamiento entre la capacidad de resolución de problemas del humano más torpe y del cuervo más inteligente
  Así que esa es la pregunta: qué es exactamente eso
  Yann LeCun parece pensar que es lo que hoy llamamos un modelo del mundo
  Un modelo del mundo no predice datos estructurados como el lenguaje, sino acciones
  Si puedes predecir cómo funciona un mundo, en teoría puedes inferir causa y efecto
  Si se pudiera combinar ese razonamiento de causa y efecto con el lenguaje, quizá saldría algo más cercano a la inteligencia real
  Parece que la dirección va hacia ahí
  Cuando aparezcan prototipos de esos sistemas, surgirán muchas preguntas sobre cuántos datos hacen falta realmente
  Ya vimos que, aun reduciendo LLM con cuantización de 1 bit, pueden salir modelos con una comprensión del lenguaje bastante fuerte
  No me parece irracional pensar que en los próximos años veremos sistemas de IA muy inteligentes con memorias relativamente bajas

Unas palabras sobre DS4

La rápida difusión de DS4 y su contexto

Hacia dónde va

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News