1 puntos por GN⁺ 3 시간 전 | 1 comentarios | Compartir por WhatsApp
  • NVIDIA Cosmos 3 es un modelo base abierto unificado para IA física que combina razonamiento físico, generación de mundos y generación de acciones dentro de un solo modelo
  • La arquitectura Mixture-of-Transformers separa la torre Reasoner y la torre Generator para conectar la comprensión de entrada con la salida generativa con conciencia física, reduciendo la necesidad de coordinar múltiples modelos y pipelines de inferencia
  • Cosmos 3 Nano tiene 16B parámetros y apunta a inferencia de nivel workstation, mientras que Cosmos 3 Super tiene 64B parámetros y apunta a despliegues en centros de datos y generación de datos sintéticos de alta calidad
  • NVIDIA publicó checkpoints del modelo, scripts de entrenamiento, herramientas de despliegue, seis datasets sintéticos y microservicios NIM para apoyar la adaptación de dominio en robótica, conducción autónoma y automatización de almacenes
  • En HUE y varios benchmarks públicos, Cosmos 3 fue evaluado por razonamiento para IA física, calidad de generación y rendimiento por dominio, y Super y Nano lideran los niveles de 32B y 8B de VANTAGE-Bench, respectivamente

Cambios clave de Cosmos 3

  • NVIDIA Cosmos 3 es un modelo base de frontera diseñado para que sistemas de IA física como robots, vehículos autónomos y espacios inteligentes entiendan el mundo, predigan la siguiente situación y generen acciones adaptadas a entornos, formas y tareas específicas
  • Las versiones anteriores de Cosmos separaban la generación de mundos, la comprensión física y la generación controlada de escenas en distintos modelos y flujos de trabajo, pero Cosmos 3 integra todo eso en un solo modelo
  • Esta versión ofrece checkpoints del modelo en Hugging Face, código en GitHub, datasets públicos, scripts para entrenamiento posterior y microservicios Cosmos NIM para despliegue en GPUs de NVIDIA

Arquitectura de dos torres

  • Cosmos 3 usa una arquitectura Mixture-of-Transformers centrada en dos torres
  • La torre Reasoner es un modelo de visión-lenguaje (VLM) que interpreta observaciones multimodales como imágenes, video y texto, y mediante una estructura autorregresiva interpreta la entrada y comprende movimiento, interacción entre objetos y contexto físico
  • La torre Generator genera video y salidas de acción con conciencia física mediante un proceso basado en difusión, condicionado por la comprensión de la torre Reasoner
  • Reasoner puede invocarse de forma independiente, pero Generator siempre activa ambas torres para la generación guiada
  • Esta arquitectura maneja tareas de razonamiento y generación en un solo modelo, reduciendo la orquestación entre múltiples modelos y pipelines de inferencia

Elección del tamaño del modelo

  • Cosmos 3 Nano es un modelo compacto de 16B parámetros, optimizado para inferencia eficiente
  • Nano está diseñado para ejecutar inferencia robótica en tiempo real y aplicaciones de IA física en cómputo de nivel workstation, como GPUs NVIDIA RTX PRO 6000
  • Cosmos 3 Super es un modelo de 64B parámetros orientado a máxima calidad y capacidad
  • Super ofrece las puntuaciones más altas en benchmarks y está pensado para despliegues en centros de datos basados en GPUs NVIDIA Hopper y NVIDIA Blackwell
  • Super es adecuado para generación de datos sintéticos a gran escala y cargas de trabajo avanzadas de razonamiento físico

Datasets públicos

Marco de evaluación HUE

  • NVIDIA Cosmos Human Evaluation (HUE) evalúa la calidad del Generator de Cosmos 3 en tareas representativas por dominio
  • A medida que los modelos más recientes de generación de video se saturan en leaderboards automáticos existentes, las diferencias de puntaje entre versiones a menudo ya no bastan para comparaciones significativas
  • HUE cambia la evaluación de una calificación subjetiva a una verificación objetiva de hechos, lo que permite comparaciones finas entre modelos de primer nivel
  • HUE descompone el video generado en preguntas binarias de hecho único a lo largo de cuatro dimensiones
    • Alineación semántica
    • Leyes físicas
    • Razonamiento geométrico
    • Integridad visual
  • Las preguntas cubren siete dominios de IA física, incluyendo robótica, vehículos autónomos y física
  • Las preguntas se generan mediante un pipeline VLM, luego son refinadas por expertos humanos y se publican como open source en Hugging Face

Resultados en benchmarks

  • Cosmos 3 fue evaluado en varias familias de benchmarks que cubren razonamiento para IA física, calidad de generación y rendimiento específico por dominio
  • En benchmarks de razonamiento, Cosmos 3 Super y Cosmos 3 Nano lideran los niveles de 32B y 8B de VANTAGE-Bench, respectivamente
  • VANTAGE-Bench es el primer benchmark público para evaluar modelos de visión-lenguaje usando video real de cámaras fijas en almacenes, tráfico y espacios inteligentes
  • Traffic Anomaly Reasoning (TAR) es un nuevo leaderboard para detectar y razonar sobre eventos anómalos en video de tráfico, y es el leaderboard oficial del AI City Challenge 2026 Track 3
  • En benchmarks de generación, Cosmos 3 es el SOTA open source en leaderboards públicos y lidera en PAI-Bench, R-Bench Physics-IQ y RoboLab
  • En Artificial Analysis, Cosmos 3 es evaluado como el modelo open source líder en los leaderboards de Text to Image y Image to Video (no audio)
  • R-Bench evalúa modelos de mundo basados en video para generación de video robótico, usando submétricas como consistencia estructural, validez física y completitud de ejecución
  • PAI-Bench evalúa comprensión y generación de video en dominios como robótica, vehículos autónomos y sentido común físico
  • Physics-IQ pone a prueba si los modelos generativos de video solo logran realismo visual o si entienden principios físicos reales
  • RoboLab es un benchmark de simulación para evaluar políticas robóticas con generalización de tareas

Recetas de entrenamiento y adaptación de dominio

  • El lanzamiento de Cosmos 3 va más allá de los checkpoints del modelo y publica código, configuraciones y flujos de trabajo para adaptar el modelo a nuevos dominios, formas y datasets
  • El ajuste fino supervisado (SFT) permite a los desarrolladores adaptar los modelos Cosmos 3 a sus propios datos
  • Las recetas públicas cubren entrenamiento posterior para generación visual con datasets de video personalizados y recetas centradas en acciones para flujos de trabajo de robótica e IA física
  • Los desarrolladores pueden personalizar Cosmos 3 para dominios objetivo como robótica, conducción autónoma y automatización de almacenes
  • El código y las configuraciones de entrenamiento posterior están disponibles en GitHub
  • El entrenamiento posterior de acciones adapta Cosmos 3 a aplicaciones de IA física con conciencia de acción, como forward dynamics, inverse dynamics y policy generation
  • En robótica, soporta flujos de trabajo para generar observaciones futuras condicionadas por acciones del robot, inferir las acciones detrás de demostraciones observadas y predecir secuencias de acción a partir de observaciones actuales y prompts de tarea

Despliegue con microservicios NIM

  • Los modelos Cosmos 3 también están disponibles como microservicios NVIDIA NIM para despliegue optimizado en producción
  • Los microservicios NIM empaquetan el modelo y un runtime de inferencia optimizado para ofrecer alto rendimiento sin tener que ajustar manualmente la infraestructura de serving
  • En flujos de trabajo de inferencia, los microservicios NIM son más fáciles de usar que el repositorio de GitHub de Cosmos 3, mientras que el repositorio de GitHub es más adecuado para flujos de entrenamiento posterior
  • Cosmos 3 Reasoner NIM ofrece actualmente las capacidades de inferencia de los modelos Cosmos 3
  • NIM soporta la selección de checkpoints cuantizados BF16, FP8 y NVFP4
  • La cuantización NVFP4 reduce la precisión numérica del modelo de BF16 a coma flotante de 4 bits para lograr hasta 2x de mejora en velocidad de inferencia
  • El stack de serving de Cosmos 3 Reasoner NIM está basado en vLLM, un motor open source de inferencia para servir LLMs eficientemente con técnicas como continuous batching, paged attention y tensor parallelism
  • Cosmos 3 Nano puede ejecutarse con vLLM-omni y NVIDIA Dynamo
  • Efficient Video Sampling (EVS) acelera Cosmos Reason NIM reduciendo la cantidad de tokens de video que entran al VLM durante la inferencia
  • EVS conserva los chunks más distintivos de cada frame y poda el resto; esta técnica tiende a ofrecer mayores beneficios en GPUs más pequeñas

Cómo ejecutarlo

  • Se necesita una clave de API de NVIDIA NGC para obtener el contenedor y descargar el modelo Cosmos 3 desde NGC
  • Un ejemplo para ejecutar Cosmos 3 Nano Reasoner NIM es el siguiente
  • Para usar Cosmos 3 Super Reasoner NIM, especifica NIM_MODEL_SIZE=super
docker run --gpus=all \
  -e NGC_API_KEY=$NGC_API_KEY \
  -e NIM_MODEL_SIZE=nano \
  -p 8000:8000 \
  nvcr.io/nim/nvidia/cosmos3-reasoner:latest
  • El uso de la API y más información están disponibles en la documentación

Recursos para comenzar

1 comentarios

 
GN⁺ 3 시간 전
Comentarios de Hacker News
  • Es un modelo open source de vanguardia para generación de imágenes y video.
    Supera a otros modelos, pero con 64 mil millones de parámetros es demasiado grande para correrlo en la mayoría de las computadoras personales.
    Aun así, considerando que usó un dataset de entrenamiento generado artificialmente, es impresionante.
    Le gana a Nano Banana 1, pero todavía no está al nivel para competir con Nano Banana 2, Seedance2 o Grok Imagine.

    • Resulta tristemente irónico que con las típicas publicaciones de lanzamiento de producto de las grandes empresas ya ni den ganas de hacer clic y uno vaya directo a los comentarios.
      Muchas veces los anuncios corporativos ni siquiera logran explicar con claridad el hecho básico que supuestamente comunican en las primeras nueve palabras.
      Pero hay un matiz que falta: este es un world model orientado a ser útil para entrenar IA de robots y vehículos autónomos.
      Así que, más que un competidor directo de Nano Banana o Seedance, puede generar imágenes y video, pero su punto central es ofrecer datos físicos y arneses para escenarios de entrenamiento de IA.
    • Los modelos de generación de imágenes y video son más fáciles de entender como una prueba de realidad para medir qué tan cerca están los modelos locales de los frontier models.
  • “Cosmos 3 Nano es una versión pequeña con 16 mil millones de parámetros, optimizada para inferencia eficiente. Está diseñada para ejecutar inferencia robótica en tiempo real y aplicaciones de IA física en entornos de cómputo tipo workstation como la GPU NVIDIA RTX PRO 6000.”
    Espero con ansias el día de poder probar esto en una GPU de clase workstation de más de 10 mil dólares, con toda la configuración carísima que eso implica.

    • Tengo GPU, pero no robot. ¿Qué tan mínimamente funcional tendría que ser un robot para ponerse a jugar con esto?
    • La buena noticia es que Nvidia con gusto te venderá una nueva laptop RTX Spark para correrlo.
  • Este lanzamiento integra funciones con una arquitectura Mixture-of-Transformers (MoT) centrada en dos torres.
    La torre de razonamiento es un modelo visión-lenguaje (VLM) que actúa como el “cerebro” y razona sobre el mundo antes de que ocurra la generación.
    La torre generativa produce observaciones futuras y secuencias de acciones, y con base en la comprensión de la torre de razonamiento genera video y salidas de acciones con consideración física mediante un proceso basado en difusión.
    Este enfoque activa ese instinto de ingeniero de optimizar y equilibrar compromisos entre arquitecturas de modelo para combinar lo mejor de ambas.
    Pero según mi entendimiento de la Bitter Lesson(http://www.incompleteideas.net/IncIdeas/BitterLesson.html), a largo plazo va exactamente en la dirección equivocada.
    Enlazo el texto real de Bitter Lesson porque creo que este concepto se malinterpreta mucho, o al menos no estoy de acuerdo con cómo se usa en el discurso.
    La idea central es una observación histórica: los investigadores de IA han intentado meter conocimiento en los agentes, y eso ayuda a corto plazo y además les da satisfacción, pero a largo plazo se estanca, bloquea el progreso y al final los avances los produce el enfoque opuesto de escalar cómputo mediante búsqueda y aprendizaje.
    Esta arquitectura se siente como una forma de meterle al agente conocimiento que ayuda en el corto plazo, y creo que tiene muchas probabilidades de estancarse en el largo plazo.
    Claro, puede salir aprendizaje o resultados interesantes encima de eso, pero no veo que quede mucho jugo por exprimirle a este enfoque.

    • A mí en realidad me parece más bien lo contrario.
      La arquitectura MoT se ve como el ideal que sugiere Bitter Lesson: poner datos de todos los formatos —audio, imagen, texto, acción, video— en un espacio latente compartido y dejar que el modelo los organice por su cuenta.
      Más que otra cosa, solo añade la estructura mínima para manejar requisitos y formatos de salida distintos, como usar procesamiento autorregresivo para modelado y predicción de secuencias, y difusión para generación.
    • Esto en gran medida se parece más a una descompresión, y hoy en día es una forma bastante estándar de hacerlo.
      El objetivo es sacar datos desde una representación interna comprimida hacia una forma utilizable por humanos.
      Técnicamente también se puede razonar a nivel de píxeles o caracteres, pero por lo general sale mucho más caro.
      En esencia, toda la técnica puede verse como una manera de hacer que la computadora trabaje más rápido.
      También se ve en Qwen talker y en la mayoría de los proyectores multimodales.
    • Aun así, este modelo tiene un alcance de dominio más amplio que un LLM de texto.
      Como también recibe video como entrada, es incluso más amplio que los modelos omni anteriores.
      La arquitectura es peculiar, pero no parece tener un tuning más extremo que el de los modelos abiertos que salen todos los días.
  • El ejemplo del video de seguridad en almacén da mucha risa. La gente no reacciona en absoluto.

    • El video del auto también está raro. La van que cruza claramente se pasa el semáforo en rojo.
      La gran sombra del poste de luz sobre la intersección tampoco tiene ningún sentido.
  • El diseño Mixture-of-Transformers de dos torres, donde un razonador autorregresivo alimenta a un generador por difusión, es una apuesta arquitectónica interesante.

  • Cuesta entender qué hace esto.
    ¿“Genera observaciones futuras y secuencias de acciones” es solo una forma rebuscada de decir generación de video?

    • No. La diferencia está en la parte de acciones.
      Este world model, por ejemplo, se condiciona con acciones de robots, así que puede hacer dos cosas que la simple generación de video no puede.
      Puede predecir los fotogramas futuros que seguirían a una acción específica, y con el mismo fotograma inicial puede producir futuros distintos si cambias la acción.
      También puede ejecutarse al revés para inferir las acciones detrás de fotogramas observados, o producir las acciones necesarias para llegar a una meta.
      En ese caso, la salida no son fotogramas de video sino comandos de motor.
    • Según entiendo, se refiere tanto a visión por computadora como a generación de video, conectadas en un world model bastante robusto.
      Uno de los ejemplos alojados solo hace análisis de video convencional, mientras que otro predice video a partir de una imagen estática, o sea, hace generación de video.
    • Si uno imagina qué es esto y por qué lo describen así, el campo de la robótica con IA necesita un motor de juego hiperrrealista con mejor física que la física rígida e inmutable tipo Unity o Unreal.
      Y al mismo tiempo, a diferencia de una simulación de elementos finitos para ingeniería, tendría que correr muchísimo más rápido que en tiempo real, y este modelo parece apuntar a esa necesidad.
    • Basta con ver la tabla de formatos compatibles. Puede recibir imagen, video, texto y acción como entrada, y puede producir imagen, video, texto y acción como salida.
    • Puede usarse para generar datos sintéticos con los que entrenar IA física como robots, autos y drones.
      Se puede simular el mundo desde una perspectiva en primera persona y crear datos de entrenamiento sin tener que mandar robots a las casas de la gente.
  • La mayoría de los ejemplos elegidos no se ven muy bien.
    Se siente como una mezcla rara entre un mal game engine y basura de IA.
    Cuesta imaginar que esto sea buen dato de entrenamiento para aplicaciones reales.

  • Da risa que, después de todos estos avances tecnológicos, el sitio siga sufriendo con cargas altas.