1 puntos por GN⁺ 2024-09-07 | 1 comentarios | Compartir por WhatsApp

Introducción a Infinity AI

  • Infinity AI es una empresa que ha entrenado un modelo de video centrado en personas
  • Es el primer caso de entrenamiento de un transformador de difusión de video impulsado por entrada de audio
  • Este modelo puede generar personajes expresivos y realistas que realmente hablan

Cómo usarlo

  • Con las herramientas de Infinity AI, puedes ingresar un guion y generar un video de un personaje hablando
  • Ejemplos:
    • "Un video de la Mona Lisa diciendo '¿qué estás mirando mientras sonríes?'"
    • "Un video de un gnomo 3D estilo Pixar con gorro rojo recitando la Declaración de Independencia"
    • "Un video de Elon Musk cantando 'Fly Me To The Moon' de Frank Sinatra"

Problemas de las herramientas de IA existentes

  • Los modelos de video de IA generativa existentes no podían hacer que los personajes hablaran
  • Las empresas existentes de avatares parlantes añadían lip sync sobre videos ya existentes
  • Esto provocaba expresiones faciales y gestos que no coincidían con el audio, generando el efecto de "uncanny valley"

Limitaciones del modelo V1

  • El enfoque de lip sync tenía varias limitaciones además de la descoordinación de gestos
  • Había una biblioteca limitada de actores y no se podían animar personajes imaginarios

Mejoras del modelo V2

  • Se entrenó un modelo transformador de difusión de video de extremo a extremo que recibe una sola imagen, audio y otras señales de condición como entrada y produce video como salida
  • Consideran que es el mejor enfoque para capturar la complejidad y sutileza del movimiento y las emociones humanas
  • El modelo tiene la desventaja de ser lento

Ventajas del modelo

  • Puede manejar varios idiomas
  • Ha aprendido algo de física (por ejemplo, los aretes se balancean correctamente)
  • Puede animar distintos tipos de imágenes (dibujos, esculturas, etc.)
  • Puede procesar canto

Desventajas del modelo

  • No puede procesar imágenes de animales (solo imágenes humanoides)
  • A menudo inserta manos en el encuadre (muy molesto y distractor)
  • No es robusto con caricaturas
  • Puede distorsionar la identidad de una persona (más evidente en figuras famosas)

Probar el modelo

Resumen de GN⁺

  • El modelo de video de Infinity AI es el primer caso capaz de generar personajes realistas a partir de entrada de audio
  • Supera las limitaciones de las herramientas de IA existentes y captura mejor el movimiento y las emociones humanas mediante un modelo transformador de difusión de video de extremo a extremo
  • Tiene ventajas como el manejo de varios idiomas y distintos tipos de imágenes, pero también desventajas como no poder procesar imágenes de animales e insertar manos en el encuadre
  • Otros proyectos con funciones similares incluyen Runway y Luma

1 comentarios

 
GN⁺ 2024-09-07
Opiniones de Hacker News
  • Parece una imitación barata de Hedra y, por ahora, está bastante atrasado
  • Usé conversión de texto a imagen para generar un marine espacial, y salió un resultado sorprendente incluso sin ajustes adicionales
  • En cuanto vi la opción de rostro "Gnome", supe qué tenía que hacer
  • Parece que al modelo no le gusta Duke Nukem
  • Recortarle la pistola empeoró las cosas
  • Las otras imágenes muestran resultados un poco mejores
  • Esta imagen es la que más me gusta
  • Alguien tenía que hacer esto
  • Hay trabajos previos como Emo de Alibaba Research, pero este demo impresiona porque la gente realmente puede probarlo
  • Intenté convertir el meme en realidad, pero la imagen original era complicada
    • Hay algunos problemas de idioma en el audio
  • Intenté llevarlo hacia el valle inquietante, pero fue bastante difícil
  • A veces inserta una mano dentro del encuadre
    • Parece que fue entrenado con demasiados datos italianos
  • Esta herramienta es increíble
    • Hay un pequeño problema con audios cortos (3~5 segundos): la imagen se queda completamente inmóvil