OmniHuman - un modelo que genera videos realistas a partir de una sola foto

xguru · 2025-02-13T10:28:01+09:00

Investigadores de ByteDance desarrollaron un sistema de IA que "genera videos de personas hablando, cantando y moviéndose de forma natural usando una sola fotografía" Supera la limitación de los modelos de IA existentes, que solo podían animar el rostro o la parte superior del cuerpo, y puede generar "videos que reflejan movimientos de cuerpo completo" Es el primer modelo unificado que "usa entradas de audio, video o una combinación de ambos" para animar de manera realista los movimientos de una persona Características principales Generación de video basada en una sola imagen Puede generar videos naturales que reflejan movimientos de cuerpo completo usando solo una foto de la persona Soporte para entradas multimodales Admite entradas de audio, video o una combinación de ambas En comparación con los modelos existentes, la expresividad de los gestos mejora significativamente Puede procesar imágenes con cualquier proporción Soporta diversas proporciones de imagen, como fotos verticales de personas, fotos de medio cuerpo y fotos de cuerpo completo Compatible con varios estilos y tipos de datos de entrada Puede reflejar distintos estilos, como cómics, personajes artificiales, animales y poses complejas Expresión natural de gestos según el estilo musical Puede generar movimientos adaptados a tonos agudos, graves y diversos géneros musicales Puede imitar movimientos basados en video Soporta video driving, que reproduce fielmente los movimientos de una persona específica

(omnihuman-lab.github.io)

20 puntos por xguru 2025-02-13 | 2 comentarios | Compartir por WhatsApp

Investigadores de ByteDance desarrollaron un sistema de IA que "genera videos de personas hablando, cantando y moviéndose de forma natural usando una sola fotografía"
Supera la limitación de los modelos de IA existentes, que solo podían animar el rostro o la parte superior del cuerpo, y puede generar "videos que reflejan movimientos de cuerpo completo"
Es el primer modelo unificado que "usa entradas de audio, video o una combinación de ambos" para animar de manera realista los movimientos de una persona
Características principales
- Generación de video basada en una sola imagen
  - Puede generar videos naturales que reflejan movimientos de cuerpo completo usando solo una foto de la persona
- Soporte para entradas multimodales
  - Admite entradas de audio, video o una combinación de ambas
  - En comparación con los modelos existentes, la expresividad de los gestos mejora significativamente
- Puede procesar imágenes con cualquier proporción
  - Soporta diversas proporciones de imagen, como fotos verticales de personas, fotos de medio cuerpo y fotos de cuerpo completo
- Compatible con varios estilos y tipos de datos de entrada
  - Puede reflejar distintos estilos, como cómics, personajes artificiales, animales y poses complejas
- Expresión natural de gestos según el estilo musical
  - Puede generar movimientos adaptados a tonos agudos, graves y diversos géneros musicales
- Puede imitar movimientos basados en video
  - Soporta video driving, que reproduce fielmente los movimientos de una persona específica

2 comentarios

dhy0613 2025-02-13

Guau, entonces si China entra en guerra, supongo que no habrá solo uno o dos videos de propaganda manipulados.

colus001 2025-02-13

Vaya... esto está genial, ¿no?

OmniHuman - un modelo que genera videos realistas a partir de una sola foto

Lecturas relacionadas

2 comentarios