Preview de Moondream 3: razonamiento de vanguardia a una velocidad revolucionaria

(moondream.ai)

14 puntos por GN⁺ 2025-09-28 | 1 comentarios | Compartir por WhatsApp

Moondream 3 logra al mismo tiempo un rendimiento de razonamiento visual de nivel de vanguardia y una inferencia rápida y eficiente al aplicar una arquitectura 9B MoE con 2B de parámetros activos
Este modelo fue diseñado con énfasis en una arquitectura especializada para tareas de visión del mundo real, facilidad de entrenamiento, alta velocidad y bajo costo
Muestra un rendimiento sólido en una amplia variedad de aplicaciones reales, como detección de objetos, pointing, salidas estructuradas y OCR
Admite una longitud de contexto de 32k tokens, lo que refuerza de forma importante su capacidad para manejar consultas y respuestas complejas
En los benchmarks iniciales, mostró ventajas en velocidad de respuesta y eficiencia frente a modelos grandes existentes

Introducción y objetivos principales

Moondream 3 es un nuevo modelo de visión-lenguaje basado en una arquitectura 9B Mixture-of-Experts (MoE) con 2B de parámetros activos
Frente a modelos anteriores, busca combinar capacidades de razonamiento visual de vanguardia con una inferencia muy rápida y rentable
Para resolver problemas del mundo real, se enfoca en las siguientes 4 áreas clave
- Razonamiento visual: ofrecer un desempeño sobresaliente en tareas reales sin sacrificar de forma significativa sus capacidades, a pesar de su tamaño reducido
- Facilidad de entrenamiento: prioriza un fine-tuning sencillo para tareas de visión especializadas como interpretación de imágenes médicas o detección de comportamiento anómalo en multitudes
- Velocidad: ofrece alta velocidad para aplicaciones de IA visual que requieren procesamiento en tiempo real, como clasificación de productos o vigilancia con drones
- Bajo costo: busca minimizar los costos operativos incluso en despliegues a gran escala, pensando en entornos con procesamiento masivo de imágenes
Aunque es un modelo 9B MoE, solo activa 2B de parámetros, lo que permite una inferencia en tiempo real rápida y económica
Usa Reinforcement Learning para reforzar la eficiencia del entrenamiento y mostrar una alta capacidad de adaptación incluso en entornos complejos
Amplía de forma considerable la longitud de contexto de 2k a 32k, mejorando los problemas de manejo de contexto complejo

Casos reales de uso de Moondream 3

Detección de objetos (Object Detection)
- Moondream 3 va más allá de la simple clasificación por etiquetas y puede entender consultas complejas y detectar objetos de acuerdo con el contexto
- En comparación con modelos frontier, ofrece un rendimiento diferenciado en funciones esenciales como detección de objetos y pointing
  - Ejemplo 1: detección de un "corredor con calcetines morados"
  - Ejemplo 2: detección del elemento de interfaz "entrada de cantidad"
Pointing (función de señalar)
- Moondream 3 incluye de forma nativa la capacidad de señalar con precisión (pointing) objetos específicos dentro de una imagen
  - Ejemplo 3: pointing del objeto "botella"
  - Ejemplo 4: selección del "utensilio más adecuado para la pasta"
Salida estructurada (Structured Output)
- Gracias a la longitud de contexto de 32k, mejora su capacidad para generar salidas de estructura compleja y devolver resultados en formatos de datos como JSON con prompts mínimos
  - Ejemplo 5: generar un arreglo JSON con los campos dog_id, fur_color y harness_color para información de perros de trineo
OCR (reconocimiento óptico de caracteres)
- Su rendimiento OCR mejoró de forma importante frente a versiones anteriores, lo que permite usarlo en diversas aplicaciones del mundo real
- Aunque todavía tiene algunas limitaciones con texto muy pequeño, muestra alta precisión al extraer información estructurada como tablas
  - Ejemplo 6: conversión de una tabla de reacción química a una tabla Markdown

Benchmarks

Moondream 3 muestra un rendimiento comparable al de los VLM líderes en diversos benchmarks
Aun así, sigue demostrando ventajas prácticas frente a modelos grandes en términos de velocidad de respuesta
Más adelante se publicarán resultados de benchmark más completos y una comparación de tiempos de inferencia

Nota técnica de Moondream 3

Modelo Mixture-of-Experts disperso y granular, con 64 expertos (Experts) de los cuales 8 se activan en cada token
Aplica la técnica de inicialización drop upcycling a partir de Moondream 2 (2B Dense)
Admite una longitud total de contexto de 32k tokens en el entrenamiento real
Mezcla muestras de contexto largo en el preentrenamiento para aplicarlas de forma efectiva sin una etapa adicional de extensión de contexto
Refuerza la comprensión de contexto largo mediante temperature scaling durante el entrenamiento y ajustes de atención estructurada
Admite dos modos, razonamiento lógico y explicación no lógica, con especialización particular en razonamiento basado en imágenes (grounding)
Mediante entrenamiento basado en aprendizaje por refuerzo (RL), mejora gradualmente la dependencia de ejemplos de razonamiento visual y la capacidad de adaptación
Induce especialización por token mediante load balancing y pérdida ortogonal del router, y luego refuerza la estabilidad en la etapa de post-training
Mejora componentes de atención como supresión LSE y temperature tuning para aumentar precisión y claridad

Conclusión y planes a futuro

En este preview, la velocidad puede ser menor debido a código de inferencia no optimizado, y el modelo sigue en entrenamiento adicional actualmente
Se espera que la versión oficial mejore de forma importante en rendimiento, benchmarks y velocidad de inferencia
También se planea crear diversos modelos derivados, como versiones cuantizadas y distilled pequeñas
Puede usarse en Moondream Playground y HuggingFace, y es posible compartir feedback y preguntas en Discord

Nota: como los modelos frontier no admiten detección esencial de objetos, se usó un prompt de plantilla para la comparación

1 comentarios

GN⁺ 2025-09-28

Comentarios en Hacker News

He estado usando Moondream 2 y de verdad me resulta muy útil, sobre todo para autoetiquetar datasets de detección de objetos para clases nuevas y luego destilarlo a un CNN mucho más pequeño con una precisión similar
Desde la etiqueta de versión 2025-01-09 no he sentido demasiadas mejoras de rendimiento, y me da pena que en los lanzamientos posteriores haya mejorado el recall pero la precision haya caído bastante
Para resolver mejor este tipo de problemas, estaría bien que un modelo de visión-lenguaje como Moondream también reportara la confianza por clase
También me encanta que tenga una API dedicada de detección de objetos, no lo he visto en otros modelos ni wrappers
Tengo muchas expectativas por los resultados de optimización de inferencia de Moondream 3, felicidades al equipo
Vale la pena seguir al fundador Vik en X
- Responde que, si hay ejemplos del problema de precision/recall, le escriban cuando quieran a vik@m87.ai
Yo también lo usé para autoetiquetar datasets y funciona realmente bien
El rendimiento de los modelos Moondream es realmente impresionante
Pero al ver los resultados de los tres grandes laboratorios, me sorprendió lo mal que lo hacen Claude y OpenAI
Gemini queda por debajo de Moondream, pero aun así es el único que podría decirse que está a un nivel utilizable
No imaginaba que la diferencia de rendimiento fuera tan grande
- Curiosamente, solo Gemini lee correctamente los números de un dado D20
  ChatGPT se equivoca una y otra vez, y Claude solo dice que no puede leer la cara superior del dado porque está tapada (cuando en realidad no lo está)
- Sorprende que, con lo bien que lo hace Moondream, todavía no haya sido adquirido por Big Tech
  Da la impresión de que Anthropic, OpenAI y otros querrían meter esta tecnología sí o sí en su plataforma
  Quienes lo hicieron merecen hacerse ricos, y si se combina con el alcance de una organización grande, el uso visual de los LLM sería muchísimo más útil
- Gemini es realmente sobresaliente en tareas cercanas a OCR, pero en la mayoría de las demás tareas relacionadas con imágenes su rendimiento suele caer bastante
El resultado se ve realmente increíble
Yo también prefería Gemini para automatizar bounding boxes, así que si un modelo de 9B le gana, tengo muchísimas ganas de verlo
Moondream 2 tenía licencia Apache 2, pero la preview de 3 está bajo BSL; me pregunto si el cambio de licencia será permanente
- Al ver la licencia de Moondream3, parece que cambiará a Apache 2 dentro de 2 años
En paper.design estamos usando moondream2 para autoetiquetar imágenes subidas por usuarios (para el árbol de capas)
Es realmente rápido y preciso, y también tengo expectativas por la versión 3
Me pasé 5 minutos tratando de encontrar información de precios de Moondream cloud, pero parece que simplemente no existe (al menos antes de registrarse)
Hay 5,000 solicitudes gratis, pero antes de conectar un servicio real lo primero es confirmar si el precio tiene sentido
- El lanzamiento de cloud será pronto
  Lo están optimizando para bajar todavía más el costo de inferencia y poder ofrecer el mejor precio
  Si quieres enterarte rápido del lanzamiento, también puedes seguir a @moondreamai en X
Me parece especialmente interesante la elección de una arquitectura MoE
El hecho de mantener un rendimiento de nivel de modelo de 8B activando solo 2B parámetros podría cambiar mucho el despliegue en dispositivos edge
Tengo bastante experiencia desplegando modelos de visión en producción donde la latencia importa, y una activación dispersa como esta podría reducir bastante la barrera de adopción causada por el costo de inferencia de los modelos grandes de visión-lenguaje
La capacidad de entender gráficos también es un punto prometedor para flujos de automatización documental
Me pregunto si alguien ha probado la consistencia del modelo bajo distintas calidades de imagen o condiciones de iluminación
En estas condiciones, a menudo los modelos pequeños sufren más que los modelos insignia
Es un modelo impresionante
Me pregunto si alguien lo ha probado para controlar la computadora o el navegador, y también qué tan bien maneja gráficos y charts
- La habilidad de point fue entrenada con muchísimos datos de UI, y hay muchos usuarios que la combinan con un modelo driver más grande para automatización de interfaces
  Antes del lanzamiento final están intentando entrenamiento adicional para que funcione end-to-end en entornos de agentes
  Por eso también aumentaron la longitud de contexto
  La comprensión de charts tiene varios tipos, pero va bastante bien
  En el blog publicaron el benchmark ChartQA, donde está a un nivel similar a GPT5* y un poco por encima de Gemini 2.5 Flash
  - Aun así, GPT5 probablemente funcionará bien con una variedad mucho mayor de charts/gráficos, mientras que Moondream encaja mejor en IA visual donde GPT5 es difícil de usar por precio/latencia
- Yo lo estoy usando para etiquetado de datasets y tengo curiosidad por ver cómo salen los resultados
Me pregunto si el concepto de 2B parámetros activos se refiere a la inferencia por token, y cómo escala esa idea cuando cambia la longitud de contexto
En concreto, me gustaría escuchar una explicación adicional sobre cómo afecta MoE a la activación durante la inferencia y cuál es el significado práctico en términos de latencia
¿Alguien puede recomendar cuál es el hardware más barato con el que se pueda correr este modelo localmente a un nivel razonable?
- Todavía no hay una versión cuantizada, así que solo los pesos requieren alrededor de 20 GB de memoria
  Sumando el KV cache, una combinación de CPU con 32 GB de RAM parece ser lo más barato y a la vez razonablemente rápido
  Como el número de parámetros activos es bajo, también rinde bien en CPU
Tengo curiosidad por ver resultados comparativos de rendimiento entre los modelos Qwen3-VL y Moondream

Preview de Moondream 3: razonamiento de vanguardia a una velocidad revolucionaria

Introducción y objetivos principales

Casos reales de uso de Moondream 3

Detección de objetos (Object Detection)

Pointing (función de señalar)

Salida estructurada (Structured Output)

OCR (reconocimiento óptico de caracteres)

Benchmarks

Nota técnica de Moondream 3

Conclusión y planes a futuro

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News