2 puntos por GN⁺ 2025-12-03 | 1 comentarios | Compartir por WhatsApp
  • STARFlow-V usa normalizing flow para generar video directamente a partir de entradas de texto, imagen y video, como el primer generador causal de video
  • Aporta entrenamiento end-to-end, estimación precisa de verosimilitud y manejo de múltiples tareas de generación (T2V/I2V/V2V) en un solo modelo
  • Mejora la consistencia espacio-temporal y la eficiencia con arquitectura Global-Local, Flow-Score Matching y iteración de Jacobi orientada a video
  • Con un modelo de 7B parámetros genera video a 480p·16fps, entrenado con 70M pares texto-video y 400M pares texto-imagen
  • Demuestra que el normalizing flow puede lograr calidad equivalente a modelos basados en difusión, y prueba la viabilidad de generación de video autoregresiva de alta calidad

Resumen de STARFlow-V

  • STARFlow-V es un modelo de generación causal de video basado en normalizing flow que alcanza una calidad visual al nivel de modelos de difusión
    • Proporciona entrenamiento end-to-end, estimación precisa de verosimilitud y soporte de múltiples tareas de generación de forma simultánea
  • En el campo de la generación de video dominado por modelos de difusión, demuestra la practicidad del normalizing flow
  • La generación de texto-video (T2V), imagen-video (I2V) y video-video (V2V) puede manejarse con una estructura única

Diseño central y estructura de entrenamiento

  • El modelo se compone de Deep Autoregressive Block (razonamiento temporal global) y Shallow Flow Block (descripción de detalles dentro de cada frame)
    • El primero capta dependencias de largo alcance en el espacio latente espaciotemporal
    • El segundo modela estructuras detalladas locales en cada frame
  • La consistencia de salida mejora gracias a un denoizador causal ligero entrenado con Flow-Score Matching
  • El objetivo de entrenamiento tiene una estructura de doble función con estimación de máxima verosimilitud y Flow-Score Matching

Contribuciones técnicas principales

  • Arquitectura Global-Local
    • Un bloque causal Transformer global maneja dependencias espaciotemporales de largo alcance
    • Un bloque de flujo superficial por frame se encarga de los detalles locales
    • Reduce el problema de acumulación de error en modelos autoregresivos a nivel de píxel
  • Supresión de ruido basada en Flow-Score Matching
    • Se entrena conjuntamente un denoizador neuronal causal que predice el gradiente (score) de la distribución de probabilidad del modelo
    • Permite un refinamiento en un solo paso sin un desruidor externo no causal o incompleto
  • Iteración de Jacobi consciente de video
    • Reconstruye el proceso de generación como la resolución de un sistema no lineal para realizar actualizaciones latentes paralelas
    • Mejora la velocidad con inicialización usando información temporal de fotogramas adyacentes y ejecución en pipeline

Especificaciones del modelo

  • Datos de entrenamiento: 70M pares texto-video, 400M pares texto-imagen
  • Tamaño del modelo: 7B parámetros, resolución de salida 480p, velocidad de fotogramas 16fps
  • Gracias a la invertibilidad del normalizing flow, puede realizarse generación en diversas tareas sin cambios de arquitectura ni reentrenamiento

Resultados de generación y comparación

  • Texto-video: genera escenas de alta calidad con luz natural, estilo fotorrealista, macro y otros escenarios
  • Imagen-video: expande el video a partir de la imagen de entrada manteniendo coherencia temporal
  • Video-video: realiza diversas transformaciones como añadir objetos, cambiar color, modificar estilo e inpainting
  • Generación de videos largos: también genera clips de 10 a 30 segundos de forma autoregresiva por segmentos
  • Comparativas: frente a NOVA y WAN-Causal, ofrece mejores resultados en fidelidad visual y consistencia temporal

Limitaciones y casos de fallo

  • Se observa degradación de calidad en interacciones físicas complejas o movimientos rápidos
  • Como causas, se señalan restricciones de recursos de entrenamiento, datos de baja calidad y la ausencia de ajuste fino posterior (SFT·RL)
  • Ejemplos: movimientos antinaturales en escenas como un perro agitándose el agua o una cabra saltando

Aporte científico

  • STARFlow-V demuestra por primera vez que el normalizing flow es adecuado para la generación de video autoregresiva de alta calidad
  • Plantea una nueva ruta alternativa para la investigación de generación de video centrada en modelos de difusión
  • Se valora como una ruta de investigación prometedora para construir world models

1 comentarios

 
GN⁺ 2025-12-03
Comentarios de Hacker News
  • Apple también tiene un modelo de comprensión de video
    Como persona con discapacidad visual, la IA ha cambiado por completo mi vida. De verdad me entusiasma ver cómo este modelo podría mejorar las funciones de accesibilidad

    • Es difícil ver este tipo de historias en los titulares de noticias; de verdad da gusto leer un comentario así
    • Hace unos años también añadieron una función para detectar el llanto de un bebé y enviar alertas para padres con discapacidad auditiva
    • Puede que sea un comentario de poca calidad, pero sinceramente me sentí feliz por ti y quise felicitarte
    • Me da curiosidad si podrías compartir más en concreto cómo la IA cambió tu vida
    • Da gusto ver, aunque sea rara vez, una buena noticia donde la IA realmente ayuda a la gente
  • La licencia de Apple está restringida solo a investigación no comercial, así que no cumple con la definición de código abierto
    Por eso creo que es más preciso llamarlo “weights available” que “open source”

    • De hecho, ni siquiera han publicado los weights todavía
      Según la ley de EE. UU., los pesos del modelo no se consideran una obra creativa sino una salida de máquina, así que no tendrían copyright
      Así que yo probablemente ignoraría este tipo de licencia sin sentido y los usaría libremente
  • El concepto de “modelo de pesos abiertos” me incomoda un poco, como si fuera una ‘versión open source del código máquina de Windows’
    Al menos la licencia de Apple, en formato clicwrap tipo MIT, sí permite modificaciones y redistribución

    • Buena analogía. Si la extendemos, el “código máquina cerrado” sería como el típico modelo SaaS
      Aun así, poder usar directamente el binario me parece mejor que limitarse a ofrecer solo SaaS
    • Lo importante es que puede ejecutarse en local
      Los pesos abiertos no son lo mismo que un simple ejecutable, porque permiten reentrenamiento y distillation
    • Probablemente se están confundiendo la licencia del código con la licencia del modelo
  • Vi los ejemplos de texto a video y, sinceramente, no me impresionaron
    Me recordaron al viejo video de Will Smith comiendo fideos. ¿Me estoy perdiendo de algo?

    • Se ve más o menos unos 2 años por detrás del estado del arte
      Aun así, tiene valor que lo hayan publicado para que investigadores puedan experimentar
    • Si vuelves a ver el video de Will Smith con espagueti, vas a notar que estos ejemplos están bastante mejor
      No es perfecto, pero entre los modelos publicados quizá sea de los más avanzados
      Eso sí, queda la duda de si la licencia es lo bastante “abierta”
    • Yo pensé lo mismo. Había partes raras, como cuando el líquido en una taza seguía subiendo aunque ya estaba quieto
  • Como investigación, este proyecto mostró intentos nuevos y potencial
    Pero desde la perspectiva de producto, se nota claramente la limitación de recursos de cómputo
    También coincide con reportes de que el CFO bloqueó la decisión del CEO de invertir en infraestructura de ML
    Sumando la salida de JG, la gran reorganización del área de IA y los rumores de retiro de Tim en 2026,
    parece que el bando no centrado en ML ganó la política interna
    Aun así, el enfoque es interesante, así que ojalá otros lo usen como base para crear algo útil

  • Según el paper, este modelo es de investigación y busca resolver el problema de errores acumulativos en modelos de video por diffusion
    Diseñaron el espacio latente con una estructura causal para mejorar la consistencia
    Para un modelo de escala 7B, los resultados son bastante buenos
    Si Apple llegara a sacar un modelo al nivel de wan o veo, seguramente habría sido entrenado con datos realmente muy pulidos

  • Dicen que STARFlow-V fue entrenado con alrededor de 20 millones de videos usando 96 GPUs H100
    Pero no se especifica el tiempo de entrenamiento

    • Es interesante que Apple Intelligence haya sido entrenado con GPUs Nvidia y Linux
      Me pregunto si los ejemplos del repo también permiten inferencia en Mac
  • El título está mal. El modelo todavía no ha sido publicado, y el enlace tampoco dice eso
    Me pregunto por qué usaron un título editado así

  • El modelo se ve bien, pero me pregunto qué caso de uso tiene Apple en mente
    Podría ser simplemente algo que interesa a sus investigadores, y no sé si la dirección de la investigación en grandes empresas realmente baja desde arriba

    • Apple tiene mucha fuerza en el área de video y animación por su relación con Pixar y Disney
      Hay muchos vínculos que vienen desde la época de Jobs
    • Probablemente sea para añadir efectos generativos a videos grabados con iPhone
      TikTok o Instagram seguramente meterán algo así pronto, pero Apple parece querer ofrecerlo por su cuenta
      Personalmente, creo que comprar Snapchat sería una buena estrategia
  • En el repo dice: “Pretrained checkpoints will be released soon
    O sea, todavía no es un modelo de pesos abiertos
    Solo cuando publiquen realmente los pesos podrá considerarse un modelo verdaderamente abierto
    Nadie sabe cuándo significa exactamente “soon”