1 puntos por GN⁺ 2025-10-24 | 1 comentarios | Compartir por WhatsApp
  • Ovi, desarrollado por Character AI, es un modelo de IA que genera audio y video simultáneamente a partir de entradas de texto o imagen
  • Ovi combina una rama de audio de 5B construida internamente con una rama de video basada en Wan2.2 para generar contenido audiovisual sincronizado y de alta calidad
  • El modelo fue entrenado en resolución 720×720, pero también genera resultados naturales en resoluciones de 960×960 o superiores, y admite varias relaciones de aspecto (9:16, 16:9, etc.)
  • Ofrece varias opciones de ejecución y funciones de optimización, como Gradio UI, integración con ComfyUI (WIP), inferencia multi-GPU y cuantización qint8/fp8
  • Este proyecto es un ejemplo reciente del avance en tecnologías de generación de texto a video (T2V) y de imagen a video (I2V), y propone un nuevo estándar para la generación fusionada de audio y video

Resumen de Ovi

  • Ovi es un modelo generativo cross-modal desarrollado en conjunto por Character AI y el equipo de investigación de Yale University, un sistema que genera audio y video sincronizados al mismo tiempo a partir de entradas de texto o texto+imagen
    • La arquitectura del modelo se denomina “Twin Backbone Cross-Modal Fusion”, y utiliza un enfoque que entrena y fusiona en paralelo las ramas de audio y video
    • El líder del proyecto es Weimin Wang, y los coautores son Chetwin Low y Calder Katyal
  • Se presenta como un modelo similar a Veo-3, y preentrena desde cero una rama de audio de 5B parámetros utilizando el dataset interno de audio de Character AI
  • Los videos generados tienen como base una duración de 5 segundos, 24FPS y resolución 720×720, y admiten varias proporciones como 9:16, 16:9 y 1:1

Funciones y características principales

  • 🎬 Generación de video+audio: genera audio y video al mismo tiempo a partir de texto o imagen
  • 🎵 Rama de audio de alta calidad: incluye una rama de audio entrenada con un gran dataset de audio construido internamente
  • 📝 Entrada flexible: admite tanto solo texto como entrada de texto+imagen
  • ⏱️ Generación de video de 5 segundos: crea videos cortos de 5 segundos a 24FPS
  • 🎯 Soporte de alta resolución: puede generar resultados naturales incluso en resoluciones de 960×960 o superiores
    • Como ejemplo, ofrece videos en varias proporciones como 1280×704, 1504×608 y 1344×704
  • 🚀 Capacidad de upscaling: aunque el entrenamiento se realizó en 720×720, mantiene la consistencia temporal y espacial también en alta resolución

Plataformas y demos disponibles

Entrenamiento y rendimiento

  • Resolución de entrenamiento: 720×720
  • Escalado de resolución en inferencia: soporte para 960×960 y varias relaciones de aspecto
  • Mantenimiento de consistencia temporal: implementa transiciones naturales entre cuadros
  • Calidad de sincronización audio-video: es posible controlar la calidad de sincronización ajustando la escala de guía de audio

Ejecución y configuración

  • Proceso de instalación
    • Instalar PyTorch 2.6.0, Flash Attention y las dependencias de requirements.txt
    • Descargar checkpoints con download_weights.py (incluye T5, VAE y MMAudio)
    • Si la GPU tiene 24GB de VRAM, se pueden usar las versiones cuantizadas fp8 o qint8
  • Archivo de configuración de inferencia: ovi/configs/inference/inference_fusion.yaml
    • Principales opciones de configuración:
      • num_steps: cantidad de pasos de denoising (30~50)
      • audio_guidance_scale, video_guidance_scale: intensidad de sincronización audio/video
      • sp_size: tamaño del paralelismo de secuencia (configurarlo igual al número de GPU)
      • cpu_offload: modo de ahorro de VRAM de GPU
      • fp8: permite ejecución en entornos con 24GB de VRAM
  • Ejemplos de ejecución de inferencia
    • GPU única: python3 inference.py --config-file ...
    • Multi-GPU: torchrun --nnodes 1 --nproc_per_node 8 inference.py ...

Requisitos de rendimiento y memoria

  • El modelo base requiere al menos 32GB de VRAM, y en modo fp8 puede funcionar con 24GB
  • Al activar FlashAttention-3 mejora la velocidad de procesamiento
  • Con procesamiento paralelo por secuencia, al usar 4~8 GPU el tiempo de procesamiento ronda los 40~55 segundos
  • Con CPU offloading se puede ahorrar VRAM, pero el tiempo de procesamiento aumenta unos 20 segundos

Ejecución de la UI de Gradio

  • Se puede ejecutar una interfaz basada en Gradio con un comando simple
    • python3 gradio_app.py
    • Soporta distintos entornos con las opciones --cpu_offload, --use_image_gen, --qint8, --fp8
  • En modo I2V, se activa automáticamente un modelo de generación de imágenes para crear el primer cuadro

Estructura de prompts y ejemplos

  • Text-to-Audio-Video (T2AV): example_prompts/gpt_examples_t2v.csv
  • Image-to-Audio-Video (I2AV): example_prompts/gpt_examples_i2v.csv
  • Uso de etiquetas especiales
    • ...: texto para conversión de voz
    • ...: descripción de música de fondo y efectos de sonido
  • Generación de prompts con GPT
    • A partir de los CSV de ejemplo, se puede pedir a GPT que modifique los diálogos para un tema específico (por ejemplo, “enfrentamiento entre IA y humanos”)
    • Luego se puede ingresar el prompt modificado en Ovi para generar videos basados en ese tema

Planes a futuro (Todo List)

  • Próxima publicación del paper de investigación y del sitio web de demo
  • Publicación de checkpoints del modelo 11B y del código de inferencia multi-GPU
  • Próxima implementación de pesos fp8, mejoras de eficiencia en paralelismo por secuencia e inferencia sharded con FSDP
  • Avance de investigación en fine-tuning con datos de alta resolución y mejora de rendimiento basada en RL
  • Próximo desarrollo de generación de videos largos, condicionamiento por voz de referencia y modelos destilados para acelerar la inferencia

Agradecimientos técnicos y colaboración

  • Wan2.2: usado para inicializar la rama de video
  • MMAudio: reutilizado como audio VAE
  • Contribuidores: @rkfg (optimización fp8), @gluttony-10 (cuantización qint8)
  • Propuestas de colaboración y contacto: se puede contactar a Weimin Wang

Información de cita

  • Paper: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
  • arXiv: https://arxiv.org/abs/2510.01284
  • Se proporciona BibTeX y se recomienda citarlo al usar la investigación

Metadatos del proyecto

  • Licencia: Apache-2.0
  • Composición de lenguajes: Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%
  • Estadísticas de GitHub: ★955, forks 92, issues 20, PR 2
  • Desarrolladores: equipo de Character AI e investigadores de Yale University

1 comentarios

 
GN⁺ 2025-10-24
Opiniones de Hacker News
  • Llevo meses probando herramientas de generación con IA, y sorprende ver cómo cada herramienta se está integrando rápidamente en una sola que incluso se puede usar en una máquina local
    Empecé a usar Ovi la semana pasada y la verdad está muy divertido. El contenido generado por IA se parece a una tragamonedas: incluso si metes una buena entrada, a veces el resultado sale fatal, pero si lo corres varias veces, termina saliendo algo usable
    He creado videos con I2V y T2V que se ven y suenan bastante reales. A veces T2V parece tener la calidad de una TV de los 90, pero eso hasta le da una sensación más realista
    Si usas Flux SPRO como fuente de imagen, salen videos bastante realistas. Mi GPU es una 5090, así que tarda unos 4 o 5 minutos en generar un clip de 5 segundos

  • Parece que el modelo de video está basado en Wan 2.2
    Últimamente hay mucha actividad alrededor de Wan, y da gusto ver aparecer un modelo abierto y flexible que compita con los modelos cerrados respaldados por grandes capitales, como OpenAI o Runway

    • Lo principal son los modelos de video open source centrados en la privacidad que ofrece VeniceAI. Ovi soporta imagen→video, Wan 2.1 imagen→video y Wan 2.2 texto→video
      También existe Wan 2.5, pero se enruta de forma anónima a través del proveedor oficial. Sale mucho más barato que opciones intermediadas como Kling, Veo o Sora
    • La discusión relacionada también apareció en el hilo Wan – Open-source alternative to VEO 3
    • Y además Google también está metido en esto
  • Antes trabajé en Ovi de Nokia. En ese entonces, Ovi era como una especie de GSuite para teléfonos Nokia, y aunque la explicación oficial era “Ovi significa puerta (Door) en finlandés”, internamente se bromeaba con que significaba “jardín de niños (Kindergarten) en húngaro”. No pude encontrar de dónde salió el nombre de este Ovi

    • Yo también trabajé en un proyecto relacionado con Ovi. En reuniones iniciales en la sede de Helsinki, escuché a ejecutivos decir que querían competir con Google, y la verdad fue un intento bastante audaz
      Pero terminó hundiéndose por la falta de una estrategia de marca y una política fallida de software para dispositivos. Creo que se cerró por completo alrededor de 2013. Para entonces yo ya había dejado la empresa
  • Supongo que mis oídos son de la generación anterior a AutoTune, porque todavía noto en el audio esa perfección total del tono y las huellas de compresión (companding)
    En particular, suena parecido a la voz del personaje Machine Head de la serie Invincible
    Aun así, en general es un trabajo excelente

  • El proyecto en sí es interesante, pero todavía no tengo clara la utilidad práctica del contenido audiovisual generativo
    Por ahora, me parece que trae más molestias que beneficios

  • A este ritmo, parece posible que en unos meses ya existan cortometrajes de alta calidad hechos totalmente con generación

    • Pero al mismo tiempo, también creo que veremos casos en los que la vida de alguien quede destruida por el uso malicioso de deepfakes
    • O quizá llegue un futuro de fiestas de prompts, donde amigos se junten, cada quien escriba su prompt, unan todo y vean juntos la película resultante. Solo imaginarlo ya da risa
    • Aun así, creo que antes que los cortometrajes veremos películas de larga duración, porque mientras más corto es el video, más difícil resulta lograr un buen nivel de acabado
  • Me dio curiosidad si estos proyectos están relacionados entre sí, así que comparé este hilo y este hilo

    • Cuando sale un nuevo modelo open weights, los oportunistas intentan registrar dominios con ese nombre y ganar dinero con SEO
      Hoy en día, gracias a las herramientas de IA para programar, es mucho más fácil automatizar este tipo de generación de landing pages
  • En el caso de I2V, si tienes una GPU NVIDIA 4070 o superior y suficiente VRAM, puedes obtener un borrador usable en 1 o 2 minutos a una resolución de 440x440
    En T2V, la calidad sigue siendo estable solo cerca de la resolución con la que fue entrenado. Aun así, en las resoluciones conocidas de Wan salen buenos resultados de vez en cuando
    Con CUDA 12.8 o superior, Torch 2.8 o superior, y usando SageAttention en lugar de Flash 2, la calidad mejora de forma notable

  • Es un avance interesante, pero da lástima que una empresa como CAI se haya quedado con esto
    usando IA contra gente joven y solitaria