Introducción a Infinity AI
- Infinity AI es una empresa que ha entrenado un modelo de video centrado en personas
- Es el primer caso de entrenamiento de un transformador de difusión de video impulsado por entrada de audio
- Este modelo puede generar personajes expresivos y realistas que realmente hablan
Cómo usarlo
- Con las herramientas de Infinity AI, puedes ingresar un guion y generar un video de un personaje hablando
- Ejemplos:
- "Un video de la Mona Lisa diciendo '¿qué estás mirando mientras sonríes?'"
- "Un video de un gnomo 3D estilo Pixar con gorro rojo recitando la Declaración de Independencia"
- "Un video de Elon Musk cantando 'Fly Me To The Moon' de Frank Sinatra"
Problemas de las herramientas de IA existentes
- Los modelos de video de IA generativa existentes no podían hacer que los personajes hablaran
- Las empresas existentes de avatares parlantes añadían lip sync sobre videos ya existentes
- Esto provocaba expresiones faciales y gestos que no coincidían con el audio, generando el efecto de "uncanny valley"
Limitaciones del modelo V1
- El enfoque de lip sync tenía varias limitaciones además de la descoordinación de gestos
- Había una biblioteca limitada de actores y no se podían animar personajes imaginarios
Mejoras del modelo V2
- Se entrenó un modelo transformador de difusión de video de extremo a extremo que recibe una sola imagen, audio y otras señales de condición como entrada y produce video como salida
- Consideran que es el mejor enfoque para capturar la complejidad y sutileza del movimiento y las emociones humanas
- El modelo tiene la desventaja de ser lento
Ventajas del modelo
- Puede manejar varios idiomas
- Ha aprendido algo de física (por ejemplo, los aretes se balancean correctamente)
- Puede animar distintos tipos de imágenes (dibujos, esculturas, etc.)
- Puede procesar canto
Desventajas del modelo
- No puede procesar imágenes de animales (solo imágenes humanoides)
- A menudo inserta manos en el encuadre (muy molesto y distractor)
- No es robusto con caricaturas
- Puede distorsionar la identidad de una persona (más evidente en figuras famosas)
Probar el modelo
Resumen de GN⁺
- El modelo de video de Infinity AI es el primer caso capaz de generar personajes realistas a partir de entrada de audio
- Supera las limitaciones de las herramientas de IA existentes y captura mejor el movimiento y las emociones humanas mediante un modelo transformador de difusión de video de extremo a extremo
- Tiene ventajas como el manejo de varios idiomas y distintos tipos de imágenes, pero también desventajas como no poder procesar imágenes de animales e insertar manos en el encuadre
- Otros proyectos con funciones similares incluyen Runway y Luma
1 comentarios
Opiniones de Hacker News