- STARFlow-V usa normalizing flow para generar video directamente a partir de entradas de texto, imagen y video, como el primer generador causal de video
- Aporta entrenamiento end-to-end, estimación precisa de verosimilitud y manejo de múltiples tareas de generación (T2V/I2V/V2V) en un solo modelo
- Mejora la consistencia espacio-temporal y la eficiencia con arquitectura Global-Local, Flow-Score Matching y iteración de Jacobi orientada a video
- Con un modelo de 7B parámetros genera video a 480p·16fps, entrenado con 70M pares texto-video y 400M pares texto-imagen
- Demuestra que el normalizing flow puede lograr calidad equivalente a modelos basados en difusión, y prueba la viabilidad de generación de video autoregresiva de alta calidad
Resumen de STARFlow-V
- STARFlow-V es un modelo de generación causal de video basado en normalizing flow que alcanza una calidad visual al nivel de modelos de difusión
- Proporciona entrenamiento end-to-end, estimación precisa de verosimilitud y soporte de múltiples tareas de generación de forma simultánea
- En el campo de la generación de video dominado por modelos de difusión, demuestra la practicidad del normalizing flow
- La generación de texto-video (T2V), imagen-video (I2V) y video-video (V2V) puede manejarse con una estructura única
Diseño central y estructura de entrenamiento
- El modelo se compone de Deep Autoregressive Block (razonamiento temporal global) y Shallow Flow Block (descripción de detalles dentro de cada frame)
- El primero capta dependencias de largo alcance en el espacio latente espaciotemporal
- El segundo modela estructuras detalladas locales en cada frame
- La consistencia de salida mejora gracias a un denoizador causal ligero entrenado con Flow-Score Matching
- El objetivo de entrenamiento tiene una estructura de doble función con estimación de máxima verosimilitud y Flow-Score Matching
Contribuciones técnicas principales
- Arquitectura Global-Local
- Un bloque causal Transformer global maneja dependencias espaciotemporales de largo alcance
- Un bloque de flujo superficial por frame se encarga de los detalles locales
- Reduce el problema de acumulación de error en modelos autoregresivos a nivel de píxel
- Supresión de ruido basada en Flow-Score Matching
- Se entrena conjuntamente un denoizador neuronal causal que predice el gradiente (score) de la distribución de probabilidad del modelo
- Permite un refinamiento en un solo paso sin un desruidor externo no causal o incompleto
- Iteración de Jacobi consciente de video
- Reconstruye el proceso de generación como la resolución de un sistema no lineal para realizar actualizaciones latentes paralelas
- Mejora la velocidad con inicialización usando información temporal de fotogramas adyacentes y ejecución en pipeline
Especificaciones del modelo
- Datos de entrenamiento: 70M pares texto-video, 400M pares texto-imagen
- Tamaño del modelo: 7B parámetros, resolución de salida 480p, velocidad de fotogramas 16fps
- Gracias a la invertibilidad del normalizing flow, puede realizarse generación en diversas tareas sin cambios de arquitectura ni reentrenamiento
Resultados de generación y comparación
- Texto-video: genera escenas de alta calidad con luz natural, estilo fotorrealista, macro y otros escenarios
- Imagen-video: expande el video a partir de la imagen de entrada manteniendo coherencia temporal
- Video-video: realiza diversas transformaciones como añadir objetos, cambiar color, modificar estilo e inpainting
- Generación de videos largos: también genera clips de 10 a 30 segundos de forma autoregresiva por segmentos
- Comparativas: frente a NOVA y WAN-Causal, ofrece mejores resultados en fidelidad visual y consistencia temporal
Limitaciones y casos de fallo
- Se observa degradación de calidad en interacciones físicas complejas o movimientos rápidos
- Como causas, se señalan restricciones de recursos de entrenamiento, datos de baja calidad y la ausencia de ajuste fino posterior (SFT·RL)
- Ejemplos: movimientos antinaturales en escenas como un perro agitándose el agua o una cabra saltando
Aporte científico
- STARFlow-V demuestra por primera vez que el normalizing flow es adecuado para la generación de video autoregresiva de alta calidad
- Plantea una nueva ruta alternativa para la investigación de generación de video centrada en modelos de difusión
- Se valora como una ruta de investigación prometedora para construir world models
1 comentarios
Comentarios de Hacker News
Apple también tiene un modelo de comprensión de video
Como persona con discapacidad visual, la IA ha cambiado por completo mi vida. De verdad me entusiasma ver cómo este modelo podría mejorar las funciones de accesibilidad
La licencia de Apple está restringida solo a investigación no comercial, así que no cumple con la definición de código abierto
Por eso creo que es más preciso llamarlo “weights available” que “open source”
Según la ley de EE. UU., los pesos del modelo no se consideran una obra creativa sino una salida de máquina, así que no tendrían copyright
Así que yo probablemente ignoraría este tipo de licencia sin sentido y los usaría libremente
El concepto de “modelo de pesos abiertos” me incomoda un poco, como si fuera una ‘versión open source del código máquina de Windows’
Al menos la licencia de Apple, en formato clicwrap tipo MIT, sí permite modificaciones y redistribución
Aun así, poder usar directamente el binario me parece mejor que limitarse a ofrecer solo SaaS
Los pesos abiertos no son lo mismo que un simple ejecutable, porque permiten reentrenamiento y distillation
Vi los ejemplos de texto a video y, sinceramente, no me impresionaron
Me recordaron al viejo video de Will Smith comiendo fideos. ¿Me estoy perdiendo de algo?
Aun así, tiene valor que lo hayan publicado para que investigadores puedan experimentar
No es perfecto, pero entre los modelos publicados quizá sea de los más avanzados
Eso sí, queda la duda de si la licencia es lo bastante “abierta”
Como investigación, este proyecto mostró intentos nuevos y potencial
Pero desde la perspectiva de producto, se nota claramente la limitación de recursos de cómputo
También coincide con reportes de que el CFO bloqueó la decisión del CEO de invertir en infraestructura de ML
Sumando la salida de JG, la gran reorganización del área de IA y los rumores de retiro de Tim en 2026,
parece que el bando no centrado en ML ganó la política interna
Aun así, el enfoque es interesante, así que ojalá otros lo usen como base para crear algo útil
Según el paper, este modelo es de investigación y busca resolver el problema de errores acumulativos en modelos de video por diffusion
Diseñaron el espacio latente con una estructura causal para mejorar la consistencia
Para un modelo de escala 7B, los resultados son bastante buenos
Si Apple llegara a sacar un modelo al nivel de wan o veo, seguramente habría sido entrenado con datos realmente muy pulidos
Dicen que STARFlow-V fue entrenado con alrededor de 20 millones de videos usando 96 GPUs H100
Pero no se especifica el tiempo de entrenamiento
Me pregunto si los ejemplos del repo también permiten inferencia en Mac
El título está mal. El modelo todavía no ha sido publicado, y el enlace tampoco dice eso
Me pregunto por qué usaron un título editado así
El modelo se ve bien, pero me pregunto qué caso de uso tiene Apple en mente
Podría ser simplemente algo que interesa a sus investigadores, y no sé si la dirección de la investigación en grandes empresas realmente baja desde arriba
Hay muchos vínculos que vienen desde la época de Jobs
TikTok o Instagram seguramente meterán algo así pronto, pero Apple parece querer ofrecerlo por su cuenta
Personalmente, creo que comprar Snapchat sería una buena estrategia
En el repo dice: “Pretrained checkpoints will be released soon”
O sea, todavía no es un modelo de pesos abiertos
Solo cuando publiquen realmente los pesos podrá considerarse un modelo verdaderamente abierto
Nadie sabe cuándo significa exactamente “soon”