14 puntos por GN⁺ 2025-09-28 | 1 comentarios | Compartir por WhatsApp
  • Moondream 3 logra al mismo tiempo un rendimiento de razonamiento visual de nivel de vanguardia y una inferencia rápida y eficiente al aplicar una arquitectura 9B MoE con 2B de parámetros activos
  • Este modelo fue diseñado con énfasis en una arquitectura especializada para tareas de visión del mundo real, facilidad de entrenamiento, alta velocidad y bajo costo
  • Muestra un rendimiento sólido en una amplia variedad de aplicaciones reales, como detección de objetos, pointing, salidas estructuradas y OCR
  • Admite una longitud de contexto de 32k tokens, lo que refuerza de forma importante su capacidad para manejar consultas y respuestas complejas
  • En los benchmarks iniciales, mostró ventajas en velocidad de respuesta y eficiencia frente a modelos grandes existentes

Introducción y objetivos principales

  • Moondream 3 es un nuevo modelo de visión-lenguaje basado en una arquitectura 9B Mixture-of-Experts (MoE) con 2B de parámetros activos
  • Frente a modelos anteriores, busca combinar capacidades de razonamiento visual de vanguardia con una inferencia muy rápida y rentable
  • Para resolver problemas del mundo real, se enfoca en las siguientes 4 áreas clave
    • Razonamiento visual: ofrecer un desempeño sobresaliente en tareas reales sin sacrificar de forma significativa sus capacidades, a pesar de su tamaño reducido
    • Facilidad de entrenamiento: prioriza un fine-tuning sencillo para tareas de visión especializadas como interpretación de imágenes médicas o detección de comportamiento anómalo en multitudes
    • Velocidad: ofrece alta velocidad para aplicaciones de IA visual que requieren procesamiento en tiempo real, como clasificación de productos o vigilancia con drones
    • Bajo costo: busca minimizar los costos operativos incluso en despliegues a gran escala, pensando en entornos con procesamiento masivo de imágenes
  • Aunque es un modelo 9B MoE, solo activa 2B de parámetros, lo que permite una inferencia en tiempo real rápida y económica
  • Usa Reinforcement Learning para reforzar la eficiencia del entrenamiento y mostrar una alta capacidad de adaptación incluso en entornos complejos
  • Amplía de forma considerable la longitud de contexto de 2k a 32k, mejorando los problemas de manejo de contexto complejo

Casos reales de uso de Moondream 3

  • Detección de objetos (Object Detection)

    • Moondream 3 va más allá de la simple clasificación por etiquetas y puede entender consultas complejas y detectar objetos de acuerdo con el contexto
    • En comparación con modelos frontier, ofrece un rendimiento diferenciado en funciones esenciales como detección de objetos y pointing
      • Ejemplo 1: detección de un "corredor con calcetines morados"
      • Ejemplo 2: detección del elemento de interfaz "entrada de cantidad"
  • Pointing (función de señalar)

    • Moondream 3 incluye de forma nativa la capacidad de señalar con precisión (pointing) objetos específicos dentro de una imagen
      • Ejemplo 3: pointing del objeto "botella"
      • Ejemplo 4: selección del "utensilio más adecuado para la pasta"
  • Salida estructurada (Structured Output)

    • Gracias a la longitud de contexto de 32k, mejora su capacidad para generar salidas de estructura compleja y devolver resultados en formatos de datos como JSON con prompts mínimos
      • Ejemplo 5: generar un arreglo JSON con los campos dog_id, fur_color y harness_color para información de perros de trineo
  • OCR (reconocimiento óptico de caracteres)

    • Su rendimiento OCR mejoró de forma importante frente a versiones anteriores, lo que permite usarlo en diversas aplicaciones del mundo real
    • Aunque todavía tiene algunas limitaciones con texto muy pequeño, muestra alta precisión al extraer información estructurada como tablas
      • Ejemplo 6: conversión de una tabla de reacción química a una tabla Markdown

Benchmarks

  • Moondream 3 muestra un rendimiento comparable al de los VLM líderes en diversos benchmarks
  • Aun así, sigue demostrando ventajas prácticas frente a modelos grandes en términos de velocidad de respuesta
  • Más adelante se publicarán resultados de benchmark más completos y una comparación de tiempos de inferencia

Nota técnica de Moondream 3

  • Modelo Mixture-of-Experts disperso y granular, con 64 expertos (Experts) de los cuales 8 se activan en cada token
  • Aplica la técnica de inicialización drop upcycling a partir de Moondream 2 (2B Dense)
  • Admite una longitud total de contexto de 32k tokens en el entrenamiento real
  • Mezcla muestras de contexto largo en el preentrenamiento para aplicarlas de forma efectiva sin una etapa adicional de extensión de contexto
  • Refuerza la comprensión de contexto largo mediante temperature scaling durante el entrenamiento y ajustes de atención estructurada
  • Admite dos modos, razonamiento lógico y explicación no lógica, con especialización particular en razonamiento basado en imágenes (grounding)
  • Mediante entrenamiento basado en aprendizaje por refuerzo (RL), mejora gradualmente la dependencia de ejemplos de razonamiento visual y la capacidad de adaptación
  • Induce especialización por token mediante load balancing y pérdida ortogonal del router, y luego refuerza la estabilidad en la etapa de post-training
  • Mejora componentes de atención como supresión LSE y temperature tuning para aumentar precisión y claridad

Conclusión y planes a futuro

  • En este preview, la velocidad puede ser menor debido a código de inferencia no optimizado, y el modelo sigue en entrenamiento adicional actualmente
  • Se espera que la versión oficial mejore de forma importante en rendimiento, benchmarks y velocidad de inferencia
  • También se planea crear diversos modelos derivados, como versiones cuantizadas y distilled pequeñas
  • Puede usarse en Moondream Playground y HuggingFace, y es posible compartir feedback y preguntas en Discord

Nota: como los modelos frontier no admiten detección esencial de objetos, se usó un prompt de plantilla para la comparación

1 comentarios

 
GN⁺ 2025-09-28
Comentarios en Hacker News
  • He estado usando Moondream 2 y de verdad me resulta muy útil, sobre todo para autoetiquetar datasets de detección de objetos para clases nuevas y luego destilarlo a un CNN mucho más pequeño con una precisión similar
    Desde la etiqueta de versión 2025-01-09 no he sentido demasiadas mejoras de rendimiento, y me da pena que en los lanzamientos posteriores haya mejorado el recall pero la precision haya caído bastante
    Para resolver mejor este tipo de problemas, estaría bien que un modelo de visión-lenguaje como Moondream también reportara la confianza por clase
    También me encanta que tenga una API dedicada de detección de objetos, no lo he visto en otros modelos ni wrappers
    Tengo muchas expectativas por los resultados de optimización de inferencia de Moondream 3, felicidades al equipo
    Vale la pena seguir al fundador Vik en X
    • Responde que, si hay ejemplos del problema de precision/recall, le escriban cuando quieran a vik@m87.ai
  • Yo también lo usé para autoetiquetar datasets y funciona realmente bien
  • El rendimiento de los modelos Moondream es realmente impresionante
    Pero al ver los resultados de los tres grandes laboratorios, me sorprendió lo mal que lo hacen Claude y OpenAI
    Gemini queda por debajo de Moondream, pero aun así es el único que podría decirse que está a un nivel utilizable
    No imaginaba que la diferencia de rendimiento fuera tan grande
    • Curiosamente, solo Gemini lee correctamente los números de un dado D20
      ChatGPT se equivoca una y otra vez, y Claude solo dice que no puede leer la cara superior del dado porque está tapada (cuando en realidad no lo está)
    • Sorprende que, con lo bien que lo hace Moondream, todavía no haya sido adquirido por Big Tech
      Da la impresión de que Anthropic, OpenAI y otros querrían meter esta tecnología sí o sí en su plataforma
      Quienes lo hicieron merecen hacerse ricos, y si se combina con el alcance de una organización grande, el uso visual de los LLM sería muchísimo más útil
    • Gemini es realmente sobresaliente en tareas cercanas a OCR, pero en la mayoría de las demás tareas relacionadas con imágenes su rendimiento suele caer bastante
  • El resultado se ve realmente increíble
    Yo también prefería Gemini para automatizar bounding boxes, así que si un modelo de 9B le gana, tengo muchísimas ganas de verlo
    Moondream 2 tenía licencia Apache 2, pero la preview de 3 está bajo BSL; me pregunto si el cambio de licencia será permanente
  • En paper.design estamos usando moondream2 para autoetiquetar imágenes subidas por usuarios (para el árbol de capas)
    Es realmente rápido y preciso, y también tengo expectativas por la versión 3
  • Me pasé 5 minutos tratando de encontrar información de precios de Moondream cloud, pero parece que simplemente no existe (al menos antes de registrarse)
    Hay 5,000 solicitudes gratis, pero antes de conectar un servicio real lo primero es confirmar si el precio tiene sentido
    • El lanzamiento de cloud será pronto
      Lo están optimizando para bajar todavía más el costo de inferencia y poder ofrecer el mejor precio
      Si quieres enterarte rápido del lanzamiento, también puedes seguir a @moondreamai en X
  • Me parece especialmente interesante la elección de una arquitectura MoE
    El hecho de mantener un rendimiento de nivel de modelo de 8B activando solo 2B parámetros podría cambiar mucho el despliegue en dispositivos edge
    Tengo bastante experiencia desplegando modelos de visión en producción donde la latencia importa, y una activación dispersa como esta podría reducir bastante la barrera de adopción causada por el costo de inferencia de los modelos grandes de visión-lenguaje
    La capacidad de entender gráficos también es un punto prometedor para flujos de automatización documental
    Me pregunto si alguien ha probado la consistencia del modelo bajo distintas calidades de imagen o condiciones de iluminación
    En estas condiciones, a menudo los modelos pequeños sufren más que los modelos insignia
  • Es un modelo impresionante
    Me pregunto si alguien lo ha probado para controlar la computadora o el navegador, y también qué tan bien maneja gráficos y charts
    • La habilidad de point fue entrenada con muchísimos datos de UI, y hay muchos usuarios que la combinan con un modelo driver más grande para automatización de interfaces
      Antes del lanzamiento final están intentando entrenamiento adicional para que funcione end-to-end en entornos de agentes
      Por eso también aumentaron la longitud de contexto
      La comprensión de charts tiene varios tipos, pero va bastante bien
      En el blog publicaron el benchmark ChartQA, donde está a un nivel similar a GPT5* y un poco por encima de Gemini 2.5 Flash
      • Aun así, GPT5 probablemente funcionará bien con una variedad mucho mayor de charts/gráficos, mientras que Moondream encaja mejor en IA visual donde GPT5 es difícil de usar por precio/latencia
    • Yo lo estoy usando para etiquetado de datasets y tengo curiosidad por ver cómo salen los resultados
  • Me pregunto si el concepto de 2B parámetros activos se refiere a la inferencia por token, y cómo escala esa idea cuando cambia la longitud de contexto
    En concreto, me gustaría escuchar una explicación adicional sobre cómo afecta MoE a la activación durante la inferencia y cuál es el significado práctico en términos de latencia
  • ¿Alguien puede recomendar cuál es el hardware más barato con el que se pueda correr este modelo localmente a un nivel razonable?
    • Todavía no hay una versión cuantizada, así que solo los pesos requieren alrededor de 20 GB de memoria
      Sumando el KV cache, una combinación de CPU con 32 GB de RAM parece ser lo más barato y a la vez razonablemente rápido
      Como el número de parámetros activos es bajo, también rinde bien en CPU
  • Tengo curiosidad por ver resultados comparativos de rendimiento entre los modelos Qwen3-VL y Moondream