- NVIDIA Cosmos 3 es un modelo base abierto unificado para IA física que combina razonamiento físico, generación de mundos y generación de acciones dentro de un solo modelo
- La arquitectura Mixture-of-Transformers separa la torre Reasoner y la torre Generator para conectar la comprensión de entrada con la salida generativa con conciencia física, reduciendo la necesidad de coordinar múltiples modelos y pipelines de inferencia
- Cosmos 3 Nano tiene 16B parámetros y apunta a inferencia de nivel workstation, mientras que Cosmos 3 Super tiene 64B parámetros y apunta a despliegues en centros de datos y generación de datos sintéticos de alta calidad
- NVIDIA publicó checkpoints del modelo, scripts de entrenamiento, herramientas de despliegue, seis datasets sintéticos y microservicios NIM para apoyar la adaptación de dominio en robótica, conducción autónoma y automatización de almacenes
- En HUE y varios benchmarks públicos, Cosmos 3 fue evaluado por razonamiento para IA física, calidad de generación y rendimiento por dominio, y Super y Nano lideran los niveles de 32B y 8B de VANTAGE-Bench, respectivamente
Cambios clave de Cosmos 3
- NVIDIA Cosmos 3 es un modelo base de frontera diseñado para que sistemas de IA física como robots, vehículos autónomos y espacios inteligentes entiendan el mundo, predigan la siguiente situación y generen acciones adaptadas a entornos, formas y tareas específicas
- Las versiones anteriores de Cosmos separaban la generación de mundos, la comprensión física y la generación controlada de escenas en distintos modelos y flujos de trabajo, pero Cosmos 3 integra todo eso en un solo modelo
- Esta versión ofrece checkpoints del modelo en Hugging Face, código en GitHub, datasets públicos, scripts para entrenamiento posterior y microservicios Cosmos NIM para despliegue en GPUs de NVIDIA
Arquitectura de dos torres
- Cosmos 3 usa una arquitectura Mixture-of-Transformers centrada en dos torres
- La torre Reasoner es un modelo de visión-lenguaje (VLM) que interpreta observaciones multimodales como imágenes, video y texto, y mediante una estructura autorregresiva interpreta la entrada y comprende movimiento, interacción entre objetos y contexto físico
- La torre Generator genera video y salidas de acción con conciencia física mediante un proceso basado en difusión, condicionado por la comprensión de la torre Reasoner
- Reasoner puede invocarse de forma independiente, pero Generator siempre activa ambas torres para la generación guiada
- Esta arquitectura maneja tareas de razonamiento y generación en un solo modelo, reduciendo la orquestación entre múltiples modelos y pipelines de inferencia
Elección del tamaño del modelo
- Cosmos 3 Nano es un modelo compacto de 16B parámetros, optimizado para inferencia eficiente
- Nano está diseñado para ejecutar inferencia robótica en tiempo real y aplicaciones de IA física en cómputo de nivel workstation, como GPUs NVIDIA RTX PRO 6000
- Cosmos 3 Super es un modelo de 64B parámetros orientado a máxima calidad y capacidad
- Super ofrece las puntuaciones más altas en benchmarks y está pensado para despliegues en centros de datos basados en GPUs NVIDIA Hopper y NVIDIA Blackwell
- Super es adecuado para generación de datos sintéticos a gran escala y cargas de trabajo avanzadas de razonamiento físico
Datasets públicos
- NVIDIA publicó seis datasets de generación de datos sintéticos (SDG) en Hugging Face junto con el lanzamiento de Cosmos 3
- Estos datasets pueden usarse para entrenamiento posterior de Cosmos 3 y otros modelos, y cubren robótica, simulación física, razonamiento espacial, movimiento humano, conducción y entornos de almacén
- Datasets públicos:
Marco de evaluación HUE
- NVIDIA Cosmos Human Evaluation (HUE) evalúa la calidad del Generator de Cosmos 3 en tareas representativas por dominio
- A medida que los modelos más recientes de generación de video se saturan en leaderboards automáticos existentes, las diferencias de puntaje entre versiones a menudo ya no bastan para comparaciones significativas
- HUE cambia la evaluación de una calificación subjetiva a una verificación objetiva de hechos, lo que permite comparaciones finas entre modelos de primer nivel
- HUE descompone el video generado en preguntas binarias de hecho único a lo largo de cuatro dimensiones
- Alineación semántica
- Leyes físicas
- Razonamiento geométrico
- Integridad visual
- Las preguntas cubren siete dominios de IA física, incluyendo robótica, vehículos autónomos y física
- Las preguntas se generan mediante un pipeline VLM, luego son refinadas por expertos humanos y se publican como open source en Hugging Face
Resultados en benchmarks
- Cosmos 3 fue evaluado en varias familias de benchmarks que cubren razonamiento para IA física, calidad de generación y rendimiento específico por dominio
- En benchmarks de razonamiento, Cosmos 3 Super y Cosmos 3 Nano lideran los niveles de 32B y 8B de VANTAGE-Bench, respectivamente
- VANTAGE-Bench es el primer benchmark público para evaluar modelos de visión-lenguaje usando video real de cámaras fijas en almacenes, tráfico y espacios inteligentes
- Traffic Anomaly Reasoning (TAR) es un nuevo leaderboard para detectar y razonar sobre eventos anómalos en video de tráfico, y es el leaderboard oficial del AI City Challenge 2026 Track 3
- En benchmarks de generación, Cosmos 3 es el SOTA open source en leaderboards públicos y lidera en PAI-Bench, R-Bench Physics-IQ y RoboLab
- En Artificial Analysis, Cosmos 3 es evaluado como el modelo open source líder en los leaderboards de Text to Image y Image to Video (no audio)
- R-Bench evalúa modelos de mundo basados en video para generación de video robótico, usando submétricas como consistencia estructural, validez física y completitud de ejecución
- PAI-Bench evalúa comprensión y generación de video en dominios como robótica, vehículos autónomos y sentido común físico
- Physics-IQ pone a prueba si los modelos generativos de video solo logran realismo visual o si entienden principios físicos reales
- RoboLab es un benchmark de simulación para evaluar políticas robóticas con generalización de tareas
Recetas de entrenamiento y adaptación de dominio
- El lanzamiento de Cosmos 3 va más allá de los checkpoints del modelo y publica código, configuraciones y flujos de trabajo para adaptar el modelo a nuevos dominios, formas y datasets
- El ajuste fino supervisado (SFT) permite a los desarrolladores adaptar los modelos Cosmos 3 a sus propios datos
- Las recetas públicas cubren entrenamiento posterior para generación visual con datasets de video personalizados y recetas centradas en acciones para flujos de trabajo de robótica e IA física
- Los desarrolladores pueden personalizar Cosmos 3 para dominios objetivo como robótica, conducción autónoma y automatización de almacenes
- El código y las configuraciones de entrenamiento posterior están disponibles en GitHub
- El entrenamiento posterior de acciones adapta Cosmos 3 a aplicaciones de IA física con conciencia de acción, como forward dynamics, inverse dynamics y policy generation
- En robótica, soporta flujos de trabajo para generar observaciones futuras condicionadas por acciones del robot, inferir las acciones detrás de demostraciones observadas y predecir secuencias de acción a partir de observaciones actuales y prompts de tarea
Despliegue con microservicios NIM
- Los modelos Cosmos 3 también están disponibles como microservicios NVIDIA NIM para despliegue optimizado en producción
- Los microservicios NIM empaquetan el modelo y un runtime de inferencia optimizado para ofrecer alto rendimiento sin tener que ajustar manualmente la infraestructura de serving
- En flujos de trabajo de inferencia, los microservicios NIM son más fáciles de usar que el repositorio de GitHub de Cosmos 3, mientras que el repositorio de GitHub es más adecuado para flujos de entrenamiento posterior
- Cosmos 3 Reasoner NIM ofrece actualmente las capacidades de inferencia de los modelos Cosmos 3
- NIM soporta la selección de checkpoints cuantizados BF16, FP8 y NVFP4
- La cuantización NVFP4 reduce la precisión numérica del modelo de BF16 a coma flotante de 4 bits para lograr hasta 2x de mejora en velocidad de inferencia
- El stack de serving de Cosmos 3 Reasoner NIM está basado en vLLM, un motor open source de inferencia para servir LLMs eficientemente con técnicas como continuous batching, paged attention y tensor parallelism
- Cosmos 3 Nano puede ejecutarse con vLLM-omni y NVIDIA Dynamo
- Efficient Video Sampling (EVS) acelera Cosmos Reason NIM reduciendo la cantidad de tokens de video que entran al VLM durante la inferencia
- EVS conserva los chunks más distintivos de cada frame y poda el resto; esta técnica tiende a ofrecer mayores beneficios en GPUs más pequeñas
Cómo ejecutarlo
- Se necesita una clave de API de NVIDIA NGC para obtener el contenedor y descargar el modelo Cosmos 3 desde NGC
- Un ejemplo para ejecutar Cosmos 3 Nano Reasoner NIM es el siguiente
- Para usar Cosmos 3 Super Reasoner NIM, especifica
NIM_MODEL_SIZE=super
docker run --gpus=all \
-e NGC_API_KEY=$NGC_API_KEY \
-e NIM_MODEL_SIZE=nano \
-p 8000:8000 \
nvcr.io/nim/nvidia/cosmos3-reasoner:latest
- El uso de la API y más información están disponibles en la documentación
Recursos para comenzar
1 comentarios
Comentarios de Hacker News
Es un modelo open source de vanguardia para generación de imágenes y video.
Supera a otros modelos, pero con 64 mil millones de parámetros es demasiado grande para correrlo en la mayoría de las computadoras personales.
Aun así, considerando que usó un dataset de entrenamiento generado artificialmente, es impresionante.
Le gana a Nano Banana 1, pero todavía no está al nivel para competir con Nano Banana 2, Seedance2 o Grok Imagine.
Muchas veces los anuncios corporativos ni siquiera logran explicar con claridad el hecho básico que supuestamente comunican en las primeras nueve palabras.
Pero hay un matiz que falta: este es un world model orientado a ser útil para entrenar IA de robots y vehículos autónomos.
Así que, más que un competidor directo de Nano Banana o Seedance, puede generar imágenes y video, pero su punto central es ofrecer datos físicos y arneses para escenarios de entrenamiento de IA.
“Cosmos 3 Nano es una versión pequeña con 16 mil millones de parámetros, optimizada para inferencia eficiente. Está diseñada para ejecutar inferencia robótica en tiempo real y aplicaciones de IA física en entornos de cómputo tipo workstation como la GPU NVIDIA RTX PRO 6000.”
Espero con ansias el día de poder probar esto en una GPU de clase workstation de más de 10 mil dólares, con toda la configuración carísima que eso implica.
Este lanzamiento integra funciones con una arquitectura Mixture-of-Transformers (MoT) centrada en dos torres.
La torre de razonamiento es un modelo visión-lenguaje (VLM) que actúa como el “cerebro” y razona sobre el mundo antes de que ocurra la generación.
La torre generativa produce observaciones futuras y secuencias de acciones, y con base en la comprensión de la torre de razonamiento genera video y salidas de acciones con consideración física mediante un proceso basado en difusión.
Este enfoque activa ese instinto de ingeniero de optimizar y equilibrar compromisos entre arquitecturas de modelo para combinar lo mejor de ambas.
Pero según mi entendimiento de la Bitter Lesson(http://www.incompleteideas.net/IncIdeas/BitterLesson.html), a largo plazo va exactamente en la dirección equivocada.
Enlazo el texto real de Bitter Lesson porque creo que este concepto se malinterpreta mucho, o al menos no estoy de acuerdo con cómo se usa en el discurso.
La idea central es una observación histórica: los investigadores de IA han intentado meter conocimiento en los agentes, y eso ayuda a corto plazo y además les da satisfacción, pero a largo plazo se estanca, bloquea el progreso y al final los avances los produce el enfoque opuesto de escalar cómputo mediante búsqueda y aprendizaje.
Esta arquitectura se siente como una forma de meterle al agente conocimiento que ayuda en el corto plazo, y creo que tiene muchas probabilidades de estancarse en el largo plazo.
Claro, puede salir aprendizaje o resultados interesantes encima de eso, pero no veo que quede mucho jugo por exprimirle a este enfoque.
La arquitectura MoT se ve como el ideal que sugiere Bitter Lesson: poner datos de todos los formatos —audio, imagen, texto, acción, video— en un espacio latente compartido y dejar que el modelo los organice por su cuenta.
Más que otra cosa, solo añade la estructura mínima para manejar requisitos y formatos de salida distintos, como usar procesamiento autorregresivo para modelado y predicción de secuencias, y difusión para generación.
El objetivo es sacar datos desde una representación interna comprimida hacia una forma utilizable por humanos.
Técnicamente también se puede razonar a nivel de píxeles o caracteres, pero por lo general sale mucho más caro.
En esencia, toda la técnica puede verse como una manera de hacer que la computadora trabaje más rápido.
También se ve en Qwen talker y en la mayoría de los proyectores multimodales.
Como también recibe video como entrada, es incluso más amplio que los modelos omni anteriores.
La arquitectura es peculiar, pero no parece tener un tuning más extremo que el de los modelos abiertos que salen todos los días.
El ejemplo del video de seguridad en almacén da mucha risa. La gente no reacciona en absoluto.
La gran sombra del poste de luz sobre la intersección tampoco tiene ningún sentido.
El diseño Mixture-of-Transformers de dos torres, donde un razonador autorregresivo alimenta a un generador por difusión, es una apuesta arquitectónica interesante.
Cuesta entender qué hace esto.
¿“Genera observaciones futuras y secuencias de acciones” es solo una forma rebuscada de decir generación de video?
Este world model, por ejemplo, se condiciona con acciones de robots, así que puede hacer dos cosas que la simple generación de video no puede.
Puede predecir los fotogramas futuros que seguirían a una acción específica, y con el mismo fotograma inicial puede producir futuros distintos si cambias la acción.
También puede ejecutarse al revés para inferir las acciones detrás de fotogramas observados, o producir las acciones necesarias para llegar a una meta.
En ese caso, la salida no son fotogramas de video sino comandos de motor.
Uno de los ejemplos alojados solo hace análisis de video convencional, mientras que otro predice video a partir de una imagen estática, o sea, hace generación de video.
Y al mismo tiempo, a diferencia de una simulación de elementos finitos para ingeniería, tendría que correr muchísimo más rápido que en tiempo real, y este modelo parece apuntar a esa necesidad.
Se puede simular el mundo desde una perspectiva en primera persona y crear datos de entrenamiento sin tener que mandar robots a las casas de la gente.
La mayoría de los ejemplos elegidos no se ven muy bien.
Se siente como una mezcla rara entre un mal game engine y basura de IA.
Cuesta imaginar que esto sea buen dato de entrenamiento para aplicaciones reales.
Y es un hecho objetivo que esta tecnología y otras parecidas se usan a gran escala en todos los fabricantes líderes de vehículos autónomos, así que por inducción parece suficientemente buena para ese caso de uso.
No trabajo en Cosmos, pero ahora mismo en Nvidia sí trabajo en tecnología privada superficialmente similar, y muchas empresas líderes la usan.
En mi opinión, la calidad también es parecida.
Parte de la investigación pública relacionada está aquí.
https://github.com/nv-tlabs/3dgrut/
https://github.com/NVIDIA/harmonizer
https://github.com/NVIDIA/instant-nurec
https://github.com/nvidia/ncore
Nvidia también está integrando Gsplat en al menos parte de lo que hago y además contribuye upstream.
https://github.com/nerfstudio-project/gsplat
Da risa que, después de todos estos avances tecnológicos, el sitio siga sufriendo con cargas altas.