2 puntos por GN⁺ 2025-04-21 | 1 comentarios | Compartir por WhatsApp
  • Investigación sobre cómo empaquetar el contexto de frames de entrada en modelos de predicción del siguiente frame para la generación de video
  • FramePack es un método para realizar la predicción de frames de forma eficiente al optimizar el layout de memoria GPU
  • Asigna recursos de GPU según la importancia de los frames para reducir la complejidad computacional a O(1)
  • Propone muestreo bidireccional para resolver el problema de drifting
  • Destaca un método de muestreo anti-drifting invertido que trata el primer frame como algo importante en la conversión de imagen a video

Empaquetado de frames de entrada en la generación de video

  • Los modelos de predicción del siguiente frame generan un nuevo frame usando varios frames de entrada
  • FramePack codifica los frames de entrada de acuerdo con el layout de memoria GPU para permitir una generación eficiente de frames
  • Cada frame se codifica usando un kernel de patchificación, y la longitud del contexto se ajusta según su importancia
  • Por ejemplo, en HunyuanVideo, un frame de 480p se convierte en 1536 tokens usando un kernel de patchificación de (1, 2, 2), y en 192 tokens usando un kernel de patchificación de (2, 4, 4)

Importancia de los frames y scheduling

  • A los frames importantes se les asignan más recursos de GPU
  • Mediante varios patrones de compresión, se puede hacer que los frames iniciales tengan la misma importancia
  • Todo el scheduling tiene complejidad O(1)
  • El artículo ofrece una evaluación detallada de varios esquemas de scheduling

Problema de drifting y métodos de solución

  • El drifting es un problema en el que la calidad disminuye a medida que el video se hace más largo
  • También se conoce como acumulación de errores o sesgo de exposición
  • Para resolverlo, se rompe la causalidad e introduce muestreo bidireccional
  • El muestreo anti-drifting invertido toma el primer frame como objetivo aproximado en toda la inferencia

Rendimiento en conversión de imagen a video

  • En una laptop con RTX 3060 6GB, se generaron videos de imagen a 5 segundos e imagen a 60 segundos usando la variante HY 13B
  • Los resultados se comprimieron con h264crf18 para ajustarse al repositorio de GitHub

1 comentarios

 
GN⁺ 2025-04-21
Opinión de Hacker News
  • Esta persona es un genio. Para quienes no sepan que también creó ControlNet, este es el primer modelo de generación de video decente que corre en hardware de consumo. También espero pronto soporte de poses de ControlNet
    • Curiosamente, este modelo realmente quiere que la gente baile. Incluso una persona sentada para una entrevista empieza a bailar sentada
    • Los ejemplos son bastante impresionantes, y los recursos usados para generarlos son casi mínimos. Parece que la inferencia también sería posible en hardware de consumo de generaciones anteriores. También me gustaría ver estadísticas del rendimiento de inferencia en una 5090
    • ¿Se podría hacer esto también de forma espacial? Por ejemplo, en vez de generar la imagen de una sola vez, ¿podría generarse de arriba hacia abajo?
    • ¿Podría usarse este modelo para interpolación en lugar de extrapolación de video?
    • Qué sorpresa. ¿Podría ser más rápido con más RAM o algo así? ¿Se podría sacar más velocidad en una H100 o H200?
    • Parece que el único movimiento que este modelo puede hacer es bailar