Goku - modelo de generación de video basado en Flow de ByteDance

xguru · 2025-02-14T10:02:01+09:00

Goku es una nueva familia de modelos de generación de imágenes y video basada en "Rectified Flow Transformer", con el objetivo de lograr un rendimiento de primer nivel en la industria Aplica diversas optimizaciones como "selección de datos, diseño del modelo y formulación de flow" para una generación visual de alta calidad Características principales Generación precisa de imágenes y video mediante una selección de datos de alta calidad Refuerza la interacción entre tokens de imagen y video utilizando la técnica Rectified Flow Ofrece un rendimiento sobresaliente en generación de imágenes y video Tareas de generación compatibles Texto → generación de video Imagen → generación de video Texto → generación de imágenes Benchmark de rendimiento: registró un alto desempeño en benchmarks principales 0.76 (GenEval - texto → generación de imágenes) 83.65 (DPG-Bench - texto → generación de imágenes) 84.85 (VBench - texto → generación de video) Goku-T2V obtuvo 84.85 puntos en la comparación de rendimiento de VBench y ocupó el segundo lugar al 7 de octubre de 2024 Superó a varios modelos comerciales de texto a video (AnimateDiff-V2, OpenSora, Gen-3, Kling, etc.)

Goku es una nueva familia de modelos de generación de imágenes y video basada en "Rectified Flow Transformer", con el objetivo de lograr un rendimiento de primer nivel en la industria
Aplica diversas optimizaciones como "selección de datos, diseño del modelo y formulación de flow" para una generación visual de alta calidad
Características principales
- Generación precisa de imágenes y video mediante una selección de datos de alta calidad
- Refuerza la interacción entre tokens de imagen y video utilizando la técnica Rectified Flow
- Ofrece un rendimiento sobresaliente en generación de imágenes y video
Tareas de generación compatibles
- Texto → generación de video
- Imagen → generación de video
- Texto → generación de imágenes
Benchmark de rendimiento: registró un alto desempeño en benchmarks principales
- 0.76 (GenEval - texto → generación de imágenes)
- 83.65 (DPG-Bench - texto → generación de imágenes)
- 84.85 (VBench - texto → generación de video)
Goku-T2V obtuvo 84.85 puntos en la comparación de rendimiento de VBench y ocupó el segundo lugar al 7 de octubre de 2024
- Superó a varios modelos comerciales de texto a video (AnimateDiff-V2, OpenSora, Gen-3, Kling, etc.)

2 comentarios

kimhj 2025-02-14

Últimamente ByteDance ha estado publicando muchísimos artículos técnicos relacionados... me hace pensar que pronto también podrían aplicarlo en TikTok.

xguru 2025-02-14

Goku+: Video Ads Foundation Models

Los casos de uso reales de la parte de abajo son todavía más interesantes.

Puede crear avatares para marketing, o generar clips de video a partir de imágenes de productos.
Luego, a partir de eso, incluso fusiona a la persona y el producto en una sola pieza para crear directamente videos de presentación del producto.
Así que produce sin problema videos de gente comiendo, caminando con ropa puesta, maquillándose y hasta usando champú.
Creo que quizás sean ejemplos especialmente pensados para el social commerce chino.

Goku - modelo de generación de video basado en Flow de ByteDance

Lecturas relacionadas

2 comentarios