- Goku es una nueva familia de modelos de generación de imágenes y video basada en "Rectified Flow Transformer", con el objetivo de lograr un rendimiento de primer nivel en la industria
- Aplica diversas optimizaciones como "selección de datos, diseño del modelo y formulación de flow" para una generación visual de alta calidad
- Características principales
- Generación precisa de imágenes y video mediante una selección de datos de alta calidad
- Refuerza la interacción entre tokens de imagen y video utilizando la técnica Rectified Flow
- Ofrece un rendimiento sobresaliente en generación de imágenes y video
- Tareas de generación compatibles
- Texto → generación de video
- Imagen → generación de video
- Texto → generación de imágenes
- Benchmark de rendimiento: registró un alto desempeño en benchmarks principales
- 0.76 (GenEval - texto → generación de imágenes)
- 83.65 (DPG-Bench - texto → generación de imágenes)
- 84.85 (VBench - texto → generación de video)
- Goku-T2V obtuvo 84.85 puntos en la comparación de rendimiento de VBench y ocupó el segundo lugar al 7 de octubre de 2024
- Superó a varios modelos comerciales de texto a video (AnimateDiff-V2, OpenSora, Gen-3, Kling, etc.)
2 comentarios
Últimamente ByteDance ha estado publicando muchísimos artículos técnicos relacionados... me hace pensar que pronto también podrían aplicarlo en TikTok.
Goku+: Video Ads Foundation Models
Los casos de uso reales de la parte de abajo son todavía más interesantes.
Puede crear avatares para marketing, o generar clips de video a partir de imágenes de productos.
Luego, a partir de eso, incluso fusiona a la persona y el producto en una sola pieza para crear directamente videos de presentación del producto.
Así que produce sin problema videos de gente comiendo, caminando con ropa puesta, maquillándose y hasta usando champú.
Creo que quizás sean ejemplos especialmente pensados para el social commerce chino.