- Moondream 3 logra al mismo tiempo un rendimiento de razonamiento visual de nivel de vanguardia y una inferencia rápida y eficiente al aplicar una arquitectura 9B MoE con 2B de parámetros activos
- Este modelo fue diseñado con énfasis en una arquitectura especializada para tareas de visión del mundo real, facilidad de entrenamiento, alta velocidad y bajo costo
- Muestra un rendimiento sólido en una amplia variedad de aplicaciones reales, como detección de objetos, pointing, salidas estructuradas y OCR
- Admite una longitud de contexto de 32k tokens, lo que refuerza de forma importante su capacidad para manejar consultas y respuestas complejas
- En los benchmarks iniciales, mostró ventajas en velocidad de respuesta y eficiencia frente a modelos grandes existentes
Introducción y objetivos principales
- Moondream 3 es un nuevo modelo de visión-lenguaje basado en una arquitectura 9B Mixture-of-Experts (MoE) con 2B de parámetros activos
- Frente a modelos anteriores, busca combinar capacidades de razonamiento visual de vanguardia con una inferencia muy rápida y rentable
- Para resolver problemas del mundo real, se enfoca en las siguientes 4 áreas clave
- Razonamiento visual: ofrecer un desempeño sobresaliente en tareas reales sin sacrificar de forma significativa sus capacidades, a pesar de su tamaño reducido
- Facilidad de entrenamiento: prioriza un fine-tuning sencillo para tareas de visión especializadas como interpretación de imágenes médicas o detección de comportamiento anómalo en multitudes
- Velocidad: ofrece alta velocidad para aplicaciones de IA visual que requieren procesamiento en tiempo real, como clasificación de productos o vigilancia con drones
- Bajo costo: busca minimizar los costos operativos incluso en despliegues a gran escala, pensando en entornos con procesamiento masivo de imágenes
- Aunque es un modelo 9B MoE, solo activa 2B de parámetros, lo que permite una inferencia en tiempo real rápida y económica
- Usa Reinforcement Learning para reforzar la eficiencia del entrenamiento y mostrar una alta capacidad de adaptación incluso en entornos complejos
- Amplía de forma considerable la longitud de contexto de 2k a 32k, mejorando los problemas de manejo de contexto complejo
Casos reales de uso de Moondream 3
-
Detección de objetos (Object Detection)
- Moondream 3 va más allá de la simple clasificación por etiquetas y puede entender consultas complejas y detectar objetos de acuerdo con el contexto
- En comparación con modelos frontier, ofrece un rendimiento diferenciado en funciones esenciales como detección de objetos y pointing
- Ejemplo 1: detección de un "corredor con calcetines morados"
- Ejemplo 2: detección del elemento de interfaz "entrada de cantidad"
-
Pointing (función de señalar)
- Moondream 3 incluye de forma nativa la capacidad de señalar con precisión (pointing) objetos específicos dentro de una imagen
- Ejemplo 3: pointing del objeto "botella"
- Ejemplo 4: selección del "utensilio más adecuado para la pasta"
- Moondream 3 incluye de forma nativa la capacidad de señalar con precisión (pointing) objetos específicos dentro de una imagen
-
Salida estructurada (Structured Output)
- Gracias a la longitud de contexto de 32k, mejora su capacidad para generar salidas de estructura compleja y devolver resultados en formatos de datos como JSON con prompts mínimos
- Ejemplo 5: generar un arreglo JSON con los campos dog_id, fur_color y harness_color para información de perros de trineo
- Gracias a la longitud de contexto de 32k, mejora su capacidad para generar salidas de estructura compleja y devolver resultados en formatos de datos como JSON con prompts mínimos
-
OCR (reconocimiento óptico de caracteres)
- Su rendimiento OCR mejoró de forma importante frente a versiones anteriores, lo que permite usarlo en diversas aplicaciones del mundo real
- Aunque todavía tiene algunas limitaciones con texto muy pequeño, muestra alta precisión al extraer información estructurada como tablas
- Ejemplo 6: conversión de una tabla de reacción química a una tabla Markdown
Benchmarks
- Moondream 3 muestra un rendimiento comparable al de los VLM líderes en diversos benchmarks
- Aun así, sigue demostrando ventajas prácticas frente a modelos grandes en términos de velocidad de respuesta
- Más adelante se publicarán resultados de benchmark más completos y una comparación de tiempos de inferencia
Nota técnica de Moondream 3
- Modelo Mixture-of-Experts disperso y granular, con 64 expertos (Experts) de los cuales 8 se activan en cada token
- Aplica la técnica de inicialización drop upcycling a partir de Moondream 2 (2B Dense)
- Admite una longitud total de contexto de 32k tokens en el entrenamiento real
- Mezcla muestras de contexto largo en el preentrenamiento para aplicarlas de forma efectiva sin una etapa adicional de extensión de contexto
- Refuerza la comprensión de contexto largo mediante temperature scaling durante el entrenamiento y ajustes de atención estructurada
- Admite dos modos, razonamiento lógico y explicación no lógica, con especialización particular en razonamiento basado en imágenes (grounding)
- Mediante entrenamiento basado en aprendizaje por refuerzo (RL), mejora gradualmente la dependencia de ejemplos de razonamiento visual y la capacidad de adaptación
- Induce especialización por token mediante load balancing y pérdida ortogonal del router, y luego refuerza la estabilidad en la etapa de post-training
- Mejora componentes de atención como supresión LSE y temperature tuning para aumentar precisión y claridad
Conclusión y planes a futuro
- En este preview, la velocidad puede ser menor debido a código de inferencia no optimizado, y el modelo sigue en entrenamiento adicional actualmente
- Se espera que la versión oficial mejore de forma importante en rendimiento, benchmarks y velocidad de inferencia
- También se planea crear diversos modelos derivados, como versiones cuantizadas y distilled pequeñas
- Puede usarse en Moondream Playground y HuggingFace, y es posible compartir feedback y preguntas en Discord
Nota: como los modelos frontier no admiten detección esencial de objetos, se usó un prompt de plantilla para la comparación
1 comentarios
Comentarios en Hacker News
Desde la etiqueta de versión 2025-01-09 no he sentido demasiadas mejoras de rendimiento, y me da pena que en los lanzamientos posteriores haya mejorado el recall pero la precision haya caído bastante
Para resolver mejor este tipo de problemas, estaría bien que un modelo de visión-lenguaje como Moondream también reportara la confianza por clase
También me encanta que tenga una API dedicada de detección de objetos, no lo he visto en otros modelos ni wrappers
Tengo muchas expectativas por los resultados de optimización de inferencia de Moondream 3, felicidades al equipo
Vale la pena seguir al fundador Vik en X
Pero al ver los resultados de los tres grandes laboratorios, me sorprendió lo mal que lo hacen Claude y OpenAI
Gemini queda por debajo de Moondream, pero aun así es el único que podría decirse que está a un nivel utilizable
No imaginaba que la diferencia de rendimiento fuera tan grande
ChatGPT se equivoca una y otra vez, y Claude solo dice que no puede leer la cara superior del dado porque está tapada (cuando en realidad no lo está)
Da la impresión de que Anthropic, OpenAI y otros querrían meter esta tecnología sí o sí en su plataforma
Quienes lo hicieron merecen hacerse ricos, y si se combina con el alcance de una organización grande, el uso visual de los LLM sería muchísimo más útil
Yo también prefería Gemini para automatizar bounding boxes, así que si un modelo de 9B le gana, tengo muchísimas ganas de verlo
Moondream 2 tenía licencia Apache 2, pero la preview de 3 está bajo BSL; me pregunto si el cambio de licencia será permanente
Es realmente rápido y preciso, y también tengo expectativas por la versión 3
Hay 5,000 solicitudes gratis, pero antes de conectar un servicio real lo primero es confirmar si el precio tiene sentido
Lo están optimizando para bajar todavía más el costo de inferencia y poder ofrecer el mejor precio
Si quieres enterarte rápido del lanzamiento, también puedes seguir a @moondreamai en X
El hecho de mantener un rendimiento de nivel de modelo de 8B activando solo 2B parámetros podría cambiar mucho el despliegue en dispositivos edge
Tengo bastante experiencia desplegando modelos de visión en producción donde la latencia importa, y una activación dispersa como esta podría reducir bastante la barrera de adopción causada por el costo de inferencia de los modelos grandes de visión-lenguaje
La capacidad de entender gráficos también es un punto prometedor para flujos de automatización documental
Me pregunto si alguien ha probado la consistencia del modelo bajo distintas calidades de imagen o condiciones de iluminación
En estas condiciones, a menudo los modelos pequeños sufren más que los modelos insignia
Me pregunto si alguien lo ha probado para controlar la computadora o el navegador, y también qué tan bien maneja gráficos y charts
pointfue entrenada con muchísimos datos de UI, y hay muchos usuarios que la combinan con un modelo driver más grande para automatización de interfacesAntes del lanzamiento final están intentando entrenamiento adicional para que funcione end-to-end en entornos de agentes
Por eso también aumentaron la longitud de contexto
La comprensión de charts tiene varios tipos, pero va bastante bien
En el blog publicaron el benchmark ChartQA, donde está a un nivel similar a GPT5* y un poco por encima de Gemini 2.5 Flash
En concreto, me gustaría escuchar una explicación adicional sobre cómo afecta MoE a la activación durante la inferencia y cuál es el significado práctico en términos de latencia
Sumando el KV cache, una combinación de CPU con 32 GB de RAM parece ser lo más barato y a la vez razonablemente rápido
Como el número de parámetros activos es bajo, también rinde bien en CPU