STARFlow-V: Modelo de generación de video de extremo a extremo basado en normalizing flow

(starflow-v.github.io)

2 puntos por GN⁺ 2025-12-03 | 1 comentarios | Compartir por WhatsApp

STARFlow-V usa normalizing flow para generar video directamente a partir de entradas de texto, imagen y video, como el primer generador causal de video
Aporta entrenamiento end-to-end, estimación precisa de verosimilitud y manejo de múltiples tareas de generación (T2V/I2V/V2V) en un solo modelo
Mejora la consistencia espacio-temporal y la eficiencia con arquitectura Global-Local, Flow-Score Matching y iteración de Jacobi orientada a video
Con un modelo de 7B parámetros genera video a 480p·16fps, entrenado con 70M pares texto-video y 400M pares texto-imagen
Demuestra que el normalizing flow puede lograr calidad equivalente a modelos basados en difusión, y prueba la viabilidad de generación de video autoregresiva de alta calidad

Resumen de STARFlow-V

STARFlow-V es un modelo de generación causal de video basado en normalizing flow que alcanza una calidad visual al nivel de modelos de difusión
- Proporciona entrenamiento end-to-end, estimación precisa de verosimilitud y soporte de múltiples tareas de generación de forma simultánea
En el campo de la generación de video dominado por modelos de difusión, demuestra la practicidad del normalizing flow
La generación de texto-video (T2V), imagen-video (I2V) y video-video (V2V) puede manejarse con una estructura única

Diseño central y estructura de entrenamiento

El modelo se compone de Deep Autoregressive Block (razonamiento temporal global) y Shallow Flow Block (descripción de detalles dentro de cada frame)
- El primero capta dependencias de largo alcance en el espacio latente espaciotemporal
- El segundo modela estructuras detalladas locales en cada frame
La consistencia de salida mejora gracias a un denoizador causal ligero entrenado con Flow-Score Matching
El objetivo de entrenamiento tiene una estructura de doble función con estimación de máxima verosimilitud y Flow-Score Matching

Contribuciones técnicas principales

Arquitectura Global-Local
- Un bloque causal Transformer global maneja dependencias espaciotemporales de largo alcance
- Un bloque de flujo superficial por frame se encarga de los detalles locales
- Reduce el problema de acumulación de error en modelos autoregresivos a nivel de píxel
Supresión de ruido basada en Flow-Score Matching
- Se entrena conjuntamente un denoizador neuronal causal que predice el gradiente (score) de la distribución de probabilidad del modelo
- Permite un refinamiento en un solo paso sin un desruidor externo no causal o incompleto
Iteración de Jacobi consciente de video
- Reconstruye el proceso de generación como la resolución de un sistema no lineal para realizar actualizaciones latentes paralelas
- Mejora la velocidad con inicialización usando información temporal de fotogramas adyacentes y ejecución en pipeline

Especificaciones del modelo

Datos de entrenamiento: 70M pares texto-video, 400M pares texto-imagen
Tamaño del modelo: 7B parámetros, resolución de salida 480p, velocidad de fotogramas 16fps
Gracias a la invertibilidad del normalizing flow, puede realizarse generación en diversas tareas sin cambios de arquitectura ni reentrenamiento

Resultados de generación y comparación

Texto-video: genera escenas de alta calidad con luz natural, estilo fotorrealista, macro y otros escenarios
Imagen-video: expande el video a partir de la imagen de entrada manteniendo coherencia temporal
Video-video: realiza diversas transformaciones como añadir objetos, cambiar color, modificar estilo e inpainting
Generación de videos largos: también genera clips de 10 a 30 segundos de forma autoregresiva por segmentos
Comparativas: frente a NOVA y WAN-Causal, ofrece mejores resultados en fidelidad visual y consistencia temporal

Limitaciones y casos de fallo

Se observa degradación de calidad en interacciones físicas complejas o movimientos rápidos
Como causas, se señalan restricciones de recursos de entrenamiento, datos de baja calidad y la ausencia de ajuste fino posterior (SFT·RL)
Ejemplos: movimientos antinaturales en escenas como un perro agitándose el agua o una cabra saltando

Aporte científico

STARFlow-V demuestra por primera vez que el normalizing flow es adecuado para la generación de video autoregresiva de alta calidad
Plantea una nueva ruta alternativa para la investigación de generación de video centrada en modelos de difusión
Se valora como una ruta de investigación prometedora para construir world models

1 comentarios

GN⁺ 2025-12-03

Comentarios de Hacker News

Apple también tiene un modelo de comprensión de video
Como persona con discapacidad visual, la IA ha cambiado por completo mi vida. De verdad me entusiasma ver cómo este modelo podría mejorar las funciones de accesibilidad
- Es difícil ver este tipo de historias en los titulares de noticias; de verdad da gusto leer un comentario así
- Hace unos años también añadieron una función para detectar el llanto de un bebé y enviar alertas para padres con discapacidad auditiva
- Puede que sea un comentario de poca calidad, pero sinceramente me sentí feliz por ti y quise felicitarte
- Me da curiosidad si podrías compartir más en concreto cómo la IA cambió tu vida
- Da gusto ver, aunque sea rara vez, una buena noticia donde la IA realmente ayuda a la gente
La licencia de Apple está restringida solo a investigación no comercial, así que no cumple con la definición de código abierto
Por eso creo que es más preciso llamarlo “weights available” que “open source”
- De hecho, ni siquiera han publicado los weights todavía
  Según la ley de EE. UU., los pesos del modelo no se consideran una obra creativa sino una salida de máquina, así que no tendrían copyright
  Así que yo probablemente ignoraría este tipo de licencia sin sentido y los usaría libremente
El concepto de “modelo de pesos abiertos” me incomoda un poco, como si fuera una ‘versión open source del código máquina de Windows’
Al menos la licencia de Apple, en formato clicwrap tipo MIT, sí permite modificaciones y redistribución
- Buena analogía. Si la extendemos, el “código máquina cerrado” sería como el típico modelo SaaS
  Aun así, poder usar directamente el binario me parece mejor que limitarse a ofrecer solo SaaS
- Lo importante es que puede ejecutarse en local
  Los pesos abiertos no son lo mismo que un simple ejecutable, porque permiten reentrenamiento y distillation
- Probablemente se están confundiendo la licencia del código con la licencia del modelo
Vi los ejemplos de texto a video y, sinceramente, no me impresionaron
Me recordaron al viejo video de Will Smith comiendo fideos. ¿Me estoy perdiendo de algo?
- Se ve más o menos unos 2 años por detrás del estado del arte
  Aun así, tiene valor que lo hayan publicado para que investigadores puedan experimentar
- Si vuelves a ver el video de Will Smith con espagueti, vas a notar que estos ejemplos están bastante mejor
  No es perfecto, pero entre los modelos publicados quizá sea de los más avanzados
  Eso sí, queda la duda de si la licencia es lo bastante “abierta”
- Yo pensé lo mismo. Había partes raras, como cuando el líquido en una taza seguía subiendo aunque ya estaba quieto
Como investigación, este proyecto mostró intentos nuevos y potencial
Pero desde la perspectiva de producto, se nota claramente la limitación de recursos de cómputo
También coincide con reportes de que el CFO bloqueó la decisión del CEO de invertir en infraestructura de ML
Sumando la salida de JG, la gran reorganización del área de IA y los rumores de retiro de Tim en 2026,
parece que el bando no centrado en ML ganó la política interna
Aun así, el enfoque es interesante, así que ojalá otros lo usen como base para crear algo útil
Según el paper, este modelo es de investigación y busca resolver el problema de errores acumulativos en modelos de video por diffusion
Diseñaron el espacio latente con una estructura causal para mejorar la consistencia
Para un modelo de escala 7B, los resultados son bastante buenos
Si Apple llegara a sacar un modelo al nivel de wan o veo, seguramente habría sido entrenado con datos realmente muy pulidos
Dicen que STARFlow-V fue entrenado con alrededor de 20 millones de videos usando 96 GPUs H100
Pero no se especifica el tiempo de entrenamiento
- Es interesante que Apple Intelligence haya sido entrenado con GPUs Nvidia y Linux
  Me pregunto si los ejemplos del repo también permiten inferencia en Mac
El título está mal. El modelo todavía no ha sido publicado, y el enlace tampoco dice eso
Me pregunto por qué usaron un título editado así
El modelo se ve bien, pero me pregunto qué caso de uso tiene Apple en mente
Podría ser simplemente algo que interesa a sus investigadores, y no sé si la dirección de la investigación en grandes empresas realmente baja desde arriba
- Apple tiene mucha fuerza en el área de video y animación por su relación con Pixar y Disney
  Hay muchos vínculos que vienen desde la época de Jobs
- Probablemente sea para añadir efectos generativos a videos grabados con iPhone
  TikTok o Instagram seguramente meterán algo así pronto, pero Apple parece querer ofrecerlo por su cuenta
  Personalmente, creo que comprar Snapchat sería una buena estrategia
En el repo dice: “Pretrained checkpoints will be released soon”
O sea, todavía no es un modelo de pesos abiertos
Solo cuando publiquen realmente los pesos podrá considerarse un modelo verdaderamente abierto
Nadie sabe cuándo significa exactamente “soon”

STARFlow-V: Modelo de generación de video de extremo a extremo basado en normalizing flow

Resumen de STARFlow-V

Diseño central y estructura de entrenamiento

Contribuciones técnicas principales

Especificaciones del modelo

Resultados de generación y comparación

Limitaciones y casos de fallo

Aporte científico

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News