9 puntos por jake630 2026-04-02 | 4 comentarios | Compartir por WhatsApp

Hola, queremos presentar Dynin-Omni (https://dynin.ai/omni/), un modelo fundacional omnimodal publicado por el laboratorio AIDAS de la Universidad Nacional de Seúl (https://aidas.snu.ac.kr/). Es una arquitectura unificada que comprende y también genera texto, imágenes, voz y video dentro de un solo modelo.

Últimamente, si uno ve los modelos multimodales integrados, muchos tienen una estructura donde a un LLM se le agrega un generador de imágenes o un modelo TTS. Pero al usarlos en la práctica, el pipeline suele volverse complejo, a veces lento, y en ocasiones la orquestación se enreda.

Además, aunque un modelo soporte de forma nativa comprensión y generación sin generadores externos, la mayoría se basa en Autoregressive (AR), así que debe generar tokens en orden. Pero imágenes o video en realidad no son datos secuenciales, por lo que este enfoque se siente algo forzado.

Por eso cambiamos por completo el enfoque.

En lugar de generar tokens uno por uno, adoptamos un método de masked diffusion, donde se enmascaran y luego se restauran todos de una vez. Así, toda la tarea se unifica como “qué tokens ocultar y restaurar”.

Por ejemplo:

  • Ver una imagen y describirla → rellenar solo el texto
  • Generar una imagen a partir de texto → rellenar tokens de imagen
  • Generar voz → rellenar tokens de voz

Así funciona.

De este modo, sin añadir por separado un modelo de generación de imágenes o un modelo TTS, un solo modelo puede encargarse tanto de la comprensión como de la generación. En cuanto a desempeño, rinde bastante bien para tratarse de un modelo único.

La inferencia de texto está en un nivel comparable con LLM recientes, y la comprensión de imagen y video compite con modelos de visión como InternVL y Qwen2.5-VL. La generación de imágenes alcanza un nivel cercano al de modelos especializados como FLUX, y en voz llega a un nivel próximo al de modelos especializados de la familia Qwen-TTS.

También logramos eficiencia en velocidad. La generación de texto es aproximadamente de 4 a 5 veces más rápida que Qwen2.5-Omni y MiniCPM-o4.5, y muestra incluso un rendimiento cerca de 2.5 veces más rápido que Qwen3-8B, un modelo de lenguaje optimizado en vLLM. En generación de imágenes, también alcanza una calidad similar con aproximadamente la mitad de pasos frente a modelos generativos especializados existentes.

Mientras que los modelos omnimodales recientes basados en AR y centrados en percepción, como Qwen3.5-Omni, se enfocan principalmente en la comprensión, Dynin-Omni integra comprensión y generación dentro de una sola arquitectura. Como restaura el conjunto completo de una vez en lugar de generar tokens secuencialmente, puede responder de forma más rápida y natural a datos no secuenciales como imágenes o video.

Esta arquitectura se vuelve aún más importante en dominios como agentes o robótica, donde se requiere comprender al mismo tiempo diversas entradas y generar acciones o resultados reales. A diferencia de un enfoque que combina varios modelos, que un solo modelo procese todo directamente reduce la complejidad del sistema y ofrece ventajas en costo y velocidad.

Además, como comprensión y generación están integradas en un solo framework, incluso si se agregan nuevas modalidades o tareas, es posible expandirse de manera natural a distintos dominios dentro de la misma estructura, sin necesidad de combinar modelos separados.

Para que esta arquitectura también pueda aprovecharse en entornos de servicio reales, estamos avanzando en su integración con infraestructura de serving basada en vLLM, dInfer y SGLang. Dado que un solo modelo procesa tanto entradas multimodales como generación, consideramos que una infraestructura de inferencia eficiente también es un factor importante.

Además, con base en este modelo, también estamos investigando Dynin-Robotics, una expansión hacia modelos de physical AI que incluye entornos de robótica y agentes. El objetivo es una arquitectura end-to-end que comprenda de forma integrada diversas entradas de sensores y las conecte con acciones reales.

De cara al futuro, planeamos seguir desarrollándolo mediante investigación y desarrollo continuos, al estilo de series como GLM de la Universidad Tsinghua en China e InternLM del Laboratorio de IA de Shanghái. Si lo revisan y tienen ideas para mejorarlo, no duden en comentarlas 👍

4 comentarios

 
runableapp 2026-04-03

Gracias. Claro que debería funcionar bien en coreano, ¿no?

Parece que está ocurriendo un error, quizá sea un problema de huggingface.co. Tendré que probar ejecutándolo en local.

 
jake630 2026-04-05

La función en coreano no es compatible en la versión actual. Planeamos lanzar pronto una versión entrenada que incluya coreano. ¡Gracias!

 
neolith 2026-04-02

¿Qué tan grandes son los planes de escalamiento?

 
jake630 2026-04-05

Los planes concretos de escalamiento se están diseñando actualmente dentro del equipo. Planeamos seguir desarrollando el modelo de manera continua. Gracias.