Show HN: Infinity – personajes de IA realistas que pueden hablar

(news.ycombinator.com)

1 puntos por GN⁺ 2024-09-07 | 1 comentarios | Compartir por WhatsApp

Infinity AI está entrenando un modelo base de video centrado en personas para generar videos de personajes hablando solo a partir de entrada de audio
Los creadores pueden ingresar un guion para generar el video de un personaje, y luego el objetivo es avanzar hacia una forma en la que también se puedan indicar acciones
V2 es un modelo end-to-end que recibe una sola imagen, audio y señales de condición para generar video, en un enfoque que busca reducir los desajustes de expresiones y gestos de los métodos tradicionales de lip sync
Hasta ahora se han invertido cerca de 11 años-GPU y alrededor de 500 mil dólares, pero incluso usando rectified flow y una 3D VAE embedding layer, la velocidad de generación sigue siendo lenta
Muestra fortalezas en multilingüismo, movimiento físico, pinturas o imágenes de esculturas y canto, pero aún mantiene modos de falla como animales, caricaturas, inserción de manos y distorsión de identidad de celebridades

Videos de personajes hablantes creados por Infinity V2

Infinity AI está entrenando su propio modelo base de video enfocado en personas
Hasta donde sabe el equipo, es de los primeros casos en entrenar un video diffusion transformer impulsado por entrada de audio
Este enfoque se centra en crear videos donde personajes expresivos y de apariencia realista realmente hablan
Se pueden ver videos de ejemplo en el V2 launch blog
El modelo se puede probar directamente en Infinity Studio
Dicen que si se deja una descripción de personaje en los comentarios de HN, el equipo generará un video y responderá con un enlace
- “Mona Lisa saying ‘what the heck are you smiling at?’”
- “A 3D pixar-style gnome with a pointy red hat reciting the Declaration of Independence”
- “Elon Musk singing Fly Me To The Moon by Sinatra”

Los modelos de video de IA generativa como Runway y Luma no están hechos para lograr que los personajes hablen
Servicios de talking avatar como HeyGen y Synthesia aplican lip sync sobre videos pregrabados
- Puede haber desajustes entre el audio y las expresiones o gestos
- Esa falta de sincronía puede producir una sensación uncanny cuyo origen es difícil de precisar
Infinity V1 también usaba un enfoque de lip sync
- Seguían existiendo desajustes en los gestos
- Había que hacer fine-tuning del modelo para cada actor usando material de video existente, así que la biblioteca de actores era limitada
- Era difícil animar personajes imaginarios
V2 cambió a un video diffusion transformer end-to-end que recibe como entrada una sola imagen, audio y otras señales de condición, y genera video como salida
- Consideran que este enfoque es el más adecuado para capturar la complejidad y los matices del movimiento y las emociones humanas
- La desventaja es que la velocidad de generación es lenta
- Obtuvieron mejoras de velocidad de 2 a 4 veces con rectified flow y de 2 a 5 veces con una 3D VAE embedding layer, pero sigue siendo lento
Hasta ahora han invertido cerca de 11 años-GPU y alrededor de 500 mil dólares en el entrenamiento, y el trabajo sobre el modelo continúa

Fortalezas
- Puede manejar varios idiomas
- Ha aprendido algo de física, como que los aretes se balanceen de forma natural e inferir la pareja en la oreja opuesta
- También puede animar tipos de imagen no vistos en el entrenamiento, como pinturas y esculturas
- Puede manejar canto
Limitaciones
- No puede manejar animales y solo responde a imágenes humanoides
- Suele insertar manos dentro del cuadro, lo que puede resultar molesto
- No es robusto con caricaturas
- Puede distorsionar la identidad de una persona, algo especialmente notable en figuras públicas

GN⁺ 2024-09-07

Parece una imitación barata de Hedra y, por ahora, está bastante atrasado
Usé conversión de texto a imagen para generar un marine espacial, y salió un resultado sorprendente incluso sin ajustes adicionales
En cuanto vi la opción de rostro "Gnome", supe qué tenía que hacer
Parece que al modelo no le gusta Duke Nukem
Recortarle la pistola empeoró las cosas
Las otras imágenes muestran resultados un poco mejores
Esta imagen es la que más me gusta
Alguien tenía que hacer esto
Hay trabajos previos como Emo de Alibaba Research, pero este demo impresiona porque la gente realmente puede probarlo
Intenté convertir el meme en realidad, pero la imagen original era complicada
- Hay algunos problemas de idioma en el audio
Intenté llevarlo hacia el valle inquietante, pero fue bastante difícil
A veces inserta una mano dentro del encuadre
- Parece que fue entrenado con demasiados datos italianos
Esta herramienta es increíble
- Hay un pequeño problema con audios cortos (3~5 segundos): la imagen se queda completamente inmóvil