- Investigación sobre cómo empaquetar el contexto de frames de entrada en modelos de predicción del siguiente frame para la generación de video
- FramePack es un método para realizar la predicción de frames de forma eficiente al optimizar el layout de memoria GPU
- Asigna recursos de GPU según la importancia de los frames para reducir la complejidad computacional a O(1)
- Propone muestreo bidireccional para resolver el problema de drifting
- Destaca un método de muestreo anti-drifting invertido que trata el primer frame como algo importante en la conversión de imagen a video
Empaquetado de frames de entrada en la generación de video
- Los modelos de predicción del siguiente frame generan un nuevo frame usando varios frames de entrada
- FramePack codifica los frames de entrada de acuerdo con el layout de memoria GPU para permitir una generación eficiente de frames
- Cada frame se codifica usando un kernel de patchificación, y la longitud del contexto se ajusta según su importancia
- Por ejemplo, en HunyuanVideo, un frame de 480p se convierte en 1536 tokens usando un kernel de patchificación de (1, 2, 2), y en 192 tokens usando un kernel de patchificación de (2, 4, 4)
Importancia de los frames y scheduling
- A los frames importantes se les asignan más recursos de GPU
- Mediante varios patrones de compresión, se puede hacer que los frames iniciales tengan la misma importancia
- Todo el scheduling tiene complejidad O(1)
- El artículo ofrece una evaluación detallada de varios esquemas de scheduling
Problema de drifting y métodos de solución
- El drifting es un problema en el que la calidad disminuye a medida que el video se hace más largo
- También se conoce como acumulación de errores o sesgo de exposición
- Para resolverlo, se rompe la causalidad e introduce muestreo bidireccional
- El muestreo anti-drifting invertido toma el primer frame como objetivo aproximado en toda la inferencia
Rendimiento en conversión de imagen a video
- En una laptop con RTX 3060 6GB, se generaron videos de imagen a 5 segundos e imagen a 60 segundos usando la variante HY 13B
- Los resultados se comprimieron con h264crf18 para ajustarse al repositorio de GitHub
1 comentarios
Opinión de Hacker News