1 puntos por GN⁺ 5 시간 전 | 1 comentarios | Compartir por WhatsApp
  • DwarfStar 4 se difundió más rápido de lo esperado y dejó ver la demanda por una experiencia de IA local centrada en un solo modelo
  • En esa rápida adopción influyeron DeepSeek v4 Flash y la cuantización asimétrica de 2/8 bits, haciendo posible ejecutarlo con 96 GB o 128 GB de RAM
  • DS4 no es un proyecto atado a un modelo específico, sino que busca poner en el centro modelos abiertos de pesos recientes y rápidos en equipos GPU in a box
  • En inferencia local, parece tener sentido usar modelos especializados como ds4-coding, ds4-legal y ds4-medical según la pregunta
  • Los próximos enfoques serán benchmarks de calidad, agentes de código, CI basada en hardware doméstico, más ports e inferencia distribuida serial y paralela

La rápida difusión de DS4 y su contexto

  • DwarfStar 4 ganó popularidad más rápido de lo esperado y mostró la demanda por una experiencia de IA local enfocada en la integración de un solo modelo
  • En esa rápida difusión influyeron conjuntamente la aparición de modelos casi frontier como DeepSeek v4 Flash, un nivel de rendimiento y velocidad lo bastante grande como para cambiar el panorama de la inferencia local, y una fuerte combinación de cuantización asimétrica de 2/8 bits
  • Esta combinación hizo posible ejecutar el modelo con solo 96 GB o 128 GB de RAM
  • La experiencia acumulada del movimiento de IA local durante los últimos años influyó en la velocidad de desarrollo de DS4, y parece que habría sido difícil construirlo en una semana sin la ayuda de GPT 5.5
  • La primera semana fue divertida pero agotadora, con un promedio de 14 horas de trabajo al día, con una intensidad similar a los primeros meses de Redis

Hacia dónde va

  • DS4 no es un proyecto que empiece y termine con DeepSeek v4 Flash; con el tiempo, el modelo central puede cambiar
  • La meta es colocar en el centro de DS4 modelos abiertos de pesos recientes que realmente corran rápido en equipos “GPU in a box” como Macs de alto rendimiento o DGX Spark
  • El siguiente candidato es DeepSeek v4 Flash, que se publicará como un nuevo checkpoint, y también son posibles una versión para código o variantes expertas para áreas como derecho y medicina
  • En inferencia local, parece tener sentido llamar modelos como ds4-coding, ds4-legal y ds4-medical según la pregunta
  • Puede decirse que esta es la primera vez que se delega a un modelo local trabajo serio que antes se le preguntaba a Claude o GPT
  • Gracias al vector steering, también se volvió posible una experiencia de uso mucho más libre del LLM, y DS4 ofrece una experiencia mucho más cercana a los modelos frontier en línea que a los pequeños modelos locales
  • Después de unos días iniciales caóticos, el proyecto planea enfocarse en benchmarks de calidad, agentes de código, pruebas de CI basadas en hardware doméstico, más ports e inferencia distribuida
  • La inferencia distribuida incluye tanto el modo serial como el paralelo, y sigue siendo una tarea importante para el futuro
  • La IA es demasiado importante como para quedarse solo como un servicio provisto

1 comentarios

 
GN⁺ 5 시간 전
Comentarios en Hacker News
  • DwarfStar4 es un pequeño runtime de inferencia para LLM que puede ejecutar DeepSeek 4, y según la entrada del blog, por ahora parece requerir 96 GB de VRAM
    Esto es una explicación para quienes no tienen suficiente contexto :-)

    • Eso no es el modelo completo sino la versión Flash, y la cuantización también está más o menos en nivel Q2~Q3, así que aunque impresiona, es bastante distinto del modelo completo
    • Mencionan que requiere 96 GB de VRAM, y me pregunto si alguien lo ha probado en una Mac con menos RAM
      Parece que podría funcionar, aunque algo más lento, trayendo capas del modelo desde el almacenamiento
    • Me da curiosidad cómo se diferencia DwarfStar4 de llama.cpp
  • Tengo mucha curiosidad por saber en qué punto la inteligencia necesaria para programar llega a ser “suficiente”
    Llegará un momento en que un modelo menos inteligente pueda alcanzar el mismo resultado si se le deja más tiempo dándole vueltas al problema, y si yo no intervengo, al final sería lo mismo
    DeepSeek V4 Pro da la impresión de estar casi en ese punto, y quizá Flash también
    También me pregunto cuánto del modelo de negocio actual de Anthropic se vendría abajo cuando se llegue a ese punto
    Hasta ahora, claramente valía la pena pagar por el modelo más inteligente, pero ahora parece evidente que el margen de crecimiento de esa idea es limitado
    La pregunta es cuánto le queda de pista, y si Anthropic está ampliándose con urgencia hacia empresas y productividad porque ya ve venir esta tendencia

    • Los modelos más inteligentes a veces simplemente hacen cosas que los modelos pequeños no pueden hacer
      No parece ser solo cuestión de esperar más tiempo
    • Al final siempre va a tratarse del costo
      Es el equilibrio entre tiempo del desarrollador, costo del desarrollador, costo de la IA y productividad del desarrollador
      Si vemos 4.6, para una empresa promedio parece estar cerca del límite de tolerancia de costo, así que tendrían que cambiar otras variables
    • El agente de código open source Kilo probó Deepseek v4 Pro y Flash comparándolos con Opus 4.7 y Kimi K2[1]
      Los resultados fueron decentes, pero la puntuación quedó bastante por debajo de Opus, y aun aplicando el precio promocional actual de lanzamiento de Deepseek, el costo terminaba siendo casi el mismo
      Esa estructura de costos es interesante; vi algo parecido también entre Sonnet y Opus, y en benchmarks propios hubo modelos cuyo precio parecía bueno, pero usaban tantos tokens que terminaban costando lo mismo que modelos “más caros”
      [1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
    • Para programadores aficionados llegará bastante rápido al nivel de lo suficientemente bueno, pero las empresas probablemente seguirán pagando por modelos más rápidos y más inteligentes
      ¿Para qué hacer esperar a los programadores?
  • Qué bueno encontrar una herramienta tan enfocada
    El backend principal está orientado a Metal, empezando desde MacBook con 96 GB de RAM
    NVIDIA CUDA pone especial atención en DGX Spark, y AMD ROCm solo se soporta en la rama rocm
    Como antirez no tiene acceso directo al hardware, está separado de main y la comunidad lo rebasea cuando hace falta
    Este proyecto no habría existido sin llama.cpp y GGML, y también dicen que vale la pena leer la sección de agradecimientos
    Pero por ahora parece que todavía no soporta offloading a RAM del sistema[0]
    Así que también habrá que seguir de cerca el issue de llama.cpp[1]
    [0] https://github.com/antirez/ds4/issues/108
    [1] https://github.com/ggml-org/llama.cpp/issues/22319

    • Dicen que AMD ROCm solo se soporta en la rama rocm; me pregunto si alguien realmente lo ha probado
      Este hilo habla mucho de MacBook Pro, pero me gustaría probarlo en un AMD Halo Strix con 128 GB de memoria unificada
    • Ojalá todavía fuera posible simplemente comprar una Mac con tanta RAM
  • Probé la versión Q4 por red local en una Mac Studio y estuvo bien
    Incluso tuve esa experiencia de usarlo con varios agentes y olvidarme por primera vez de que era un modelo local porque hacía el trabajo demasiado bien
    Aun así, me pregunto si realmente hace falta otro agente
    Lo ejecuté con Pi, pero el system prompt de Claude Code es demasiado pesado si consideras la velocidad de prefill, aunque el resultado fue excelente
    OpenCode también es una buena opción
    Me pregunto si realmente se gana algo creando otra herramienta parecida dedicada solo a Deepseek 4

    • En funcionalidad, no hace falta otro agente
      Pero si sigues la idea misma de DS4, los agentes vía API terminan haciendo cosas raras como traducir sintaxis DSML a JSON, y eso provoca problemas de normalización o de checkpointing de caché KV
      Independientemente de si eso pasa de verdad o no, igual tiene valor ofrecer una alternativa más normal
      Tampoco entiendo muy bien por qué en este campo no se intenta escribir más cosas en C/Go/Rust para ganar control, velocidad y menos dependencias
      Incluso del lado TUI hay mucho que se puede imaginar
      La mayoría de los proyectos tienen el problema de copiar exactamente lo que ya vieron; por ejemplo, esto lo hicieron en 20 minutos: https://x.com/antirez/status/2055190821373116619
      Ahora el código es barato, y el valor de las ideas ha subido más
      Ya no estoy seguro de que hoy siga teniendo sentido pensar en términos de “¿hace falta otro XYZ?”
      Puede valer la pena aunque sea solo para explorar ideas nuevas
      Personalmente no me gusta usar el ecosistema JavaScript / Node para código, así que al explorar nuevos TUI o flujos de trabajo con agentes, hacerlo con herramientas más cómodas cambia tanto el resultado como el proceso iterativo
    • DS4 es un motor de inferencia, no un harness de ejecución
      Proporciona un servidor de API de inferencia, y conectas ahí el harness de programación
  • Ahora mismo no puedo usarlo por hardware, pero me gusta. Solo tengo una M2 Max con 96 GB
    Entiendo que en hardware de usuario común o computadoras masivas no se pueda usar o se vea peor
    Me recuerda a cuando las computadoras domésticas antiguas eran vistas como juguetes antes de convertirse en computadoras personales
    En mi hardware actual, la combinación más utilizable es pi agent + llama.cpp + nemotron cascade-2
    Puede llegar a 1M de contexto, y al ser una arquitectura híbrida no se derrumba como 1/N² en profundidades de contexto de 10K, 50K o 100K que usan los agentes de código
    Hace unos días, en un vuelo, pude correr pi agent con serving de llama.cpp sin internet, y apenas era usable con unas 40~30 tokens/segundo, lo cual me hizo gracia
    Normalmente entiendo que la velocidad por API es el doble, como 60~80 tokens/segundo
    Durante la inferencia, los sensores mostraban un consumo de 60 W, y la batería probablemente no aguantaría más de 3 horas
    El modelo es solo de 30B, así que sobra espacio para la caché KV y otros programas, y se comporta bien incluso con cuantización generosa de 8 bits
    Un MoE A3B con solo 3B de parámetros activados a la vez parece ser el máximo que una M2 Max envejecida puede manejar

    • No sé si se comporta distinto en macOS, pero con CUDA y DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.gguf sí cabe dentro de 96 GB de VRAM incluso incluyendo el contexto
      Así que, a menos que macOS use por defecto varios GB de RAM/VRAM para el SO o la pantalla, en teoría debería ser posible
    • Parece que también debería funcionar en esa computadora
      Hay algunos reportes positivos
    • Con 96 GB debería funcionar, sobre todo con contexto limitado
      Aunque la M2 Max sí es algo lenta
  • Sorprende lo cerca que se siente de Claude
    Claro, es mucho más lento, pero no sé si es tanto más tonto
    Curiosamente, la cuantización imatrix parece mejor que cualquier cuantización usada por el backend de inferencia zdr de OpenRouter
    Ayer incluso se dio cuenta por sí solo de que su proceso de servidor era él mismo, sin que yo tuviera que decírselo; es la primera vez que veo algo así en un modelo local

    • Me da curiosidad qué prompt le diste
    • Es claramente una prueba anecdótica, pero DeepseekV4 Pro fue mejor que Sonnet en programación
      Es mucho más lento, pero con la promoción actual también es varias veces más barato
  • No parece estar explicado por qué hay que hacer un motor de inferencia nuevo para cada modelo
    Se podría simplemente usar llama.cpp, y ya mucha gente está trabajando en integraciones con llama.cpp
    Es invertir mucho esfuerzo en un solo modelo, y si sale otro mejor, podría quedar obsoleto muy rápido
    En algunas discusiones, la gente está haciendo PR tanto para la rama de llama.cpp como para ds4, así que ese talento escaso que invierte tiempo de desarrollo en este modelo se está fragmentando

    • Es mucho más fácil trabajar sobre una base de código en C enfocada y propia que sobre una base madura y difícil de manejar en C++ que no controlas
      Aun así, está bien. La gente llevará ese trabajo a llama.cpp y todos ganarán
      La experiencia de usuario de ds4 también es excelente. Es muy fácil obtener un modelo validado y una buena cuantización
      llama.cpp tiene demasiados knobs y se siente mucho más como hackear en un páramo
    • La premisa parece ser: “el código es barato, la colaboración —por ejemplo, subir cambios upstream— es cara”
      Si eso es verdad o no, lo veremos dentro de unos años
    • Como el autor dijo varias veces, los mantenedores de llama.cpp no quieren una gran entrada de código escrito por IA que no haya sido revisado por humanos
      Si alguien quiere subir soporte para ese proyecto upstream, es libre de hacerlo, y el código tiene licencia MIT
    • A partir de cierto punto, el nivel de abstracción y generalización que requieren proyectos grandes y flexibles como llama.cpp o Linux hace que el número de archivos explote
      Un proyecto más nuevo y pequeño puede moverse más rápido
  • DeepSeekV4 Pro es un modelo realmente competente, y es muy bueno sobre todo por el precio al que se ofrece
    Estoy trasteando con un motor 2.5D sobre raylib en C y usando DeepSeek como asistente
    En OpenaCode, el registro del proceso de razonamiento se ve de forma transparente, y observar ese razonamiento ha sido sorprendente
    Es muy largo de leer, pero no hubo partes inútiles o sin sentido
    DeepSeek siempre marcaba en su razonamiento supuestos que yo no había considerado o en los que estaba equivocado, y en la salida final se alineaba con mi flawed request
    Entonces yo volvía a indicarle algo como: “espera, tú también pensabas eso, tenías razón y yo me equivoqué, así que consideremos ese aspecto también”

  • Estaría bien poder correr algo así no solo en mi computadora, sino también en proyectos de clientes o en GPU en la nube
    La idea central de poder usar un modelo potente de forma eficiente y sin clústeres sigue aplicando a muchos casos de negocio
    Espero que este enfoque también funcione en modo batch
    Ahora mismo, en una H200, para llamadas de herramientas agenticas en agentes de voz inteligentes, siento que uno de los mejores sigue siendo Qwen 3.6 27B de 4 bits con MTP
    Si DS4 Flash es 80B a 2 bits, 13B activos y con estructura MTP, me pregunto si podría ser más rápido y más inteligente, además de permitir más secuencias concurrentes
    Esa cuantización especial de 2 bits parece bastante importante

  • Al ver qué tan rápido están subiendo el rendimiento y la velocidad en modelos locales, llámese “inteligencia” o como se quiera, me pregunto cuál será la tasa de crecimiento y dónde estará el techo en este campo
    ¿Dentro de algunos años será posible tener este nivel de inteligencia y rendimiento, por ejemplo, con solo 16 GB de RAM?
    ¿Podríamos definir aquí algún nuevo tipo de ley de Moore?

    • Siendo sinceros, hoy por hoy no es posible o no es realista meter modelos así en 16 GB, incluyendo incluso ese “olor a modelo grande”
      Haría falta una innovación de arquitectura, de hardware, o algún avance en técnicas de cuantización
      El problema es que todos los parámetros tienen que estar en memoria, incluso los que no se activan
      Incluso en modelos de mezcla de expertos, mover parámetros dentro y fuera de la RAM es demasiado lento
    • La gente que trabaja en la frontera de este campo parece pensar que hacen falta modelos paralelos que resuelvan problemas distintos
      Los cuervos muestran cierto grado de inteligencia con cerebros muchísimo más pequeños que los humanos, y hay una zona de solapamiento entre la capacidad de resolución de problemas del humano más torpe y del cuervo más inteligente
      Así que esa es la pregunta: qué es exactamente eso
      Yann LeCun parece pensar que es lo que hoy llamamos un modelo del mundo
      Un modelo del mundo no predice datos estructurados como el lenguaje, sino acciones
      Si puedes predecir cómo funciona un mundo, en teoría puedes inferir causa y efecto
      Si se pudiera combinar ese razonamiento de causa y efecto con el lenguaje, quizá saldría algo más cercano a la inteligencia real
      Parece que la dirección va hacia ahí
      Cuando aparezcan prototipos de esos sistemas, surgirán muchas preguntas sobre cuántos datos hacen falta realmente
      Ya vimos que, aun reduciendo LLM con cuantización de 1 bit, pueden salir modelos con una comprensión del lenguaje bastante fuerte
      No me parece irracional pensar que en los próximos años veremos sistemas de IA muy inteligentes con memorias relativamente bajas