- Ovi, desarrollado por Character AI, es un modelo de IA que genera audio y video simultáneamente a partir de entradas de texto o imagen
- Ovi combina una rama de audio de 5B construida internamente con una rama de video basada en Wan2.2 para generar contenido audiovisual sincronizado y de alta calidad
- El modelo fue entrenado en resolución 720×720, pero también genera resultados naturales en resoluciones de 960×960 o superiores, y admite varias relaciones de aspecto (9:16, 16:9, etc.)
- Ofrece varias opciones de ejecución y funciones de optimización, como Gradio UI, integración con ComfyUI (WIP), inferencia multi-GPU y cuantización qint8/fp8
- Este proyecto es un ejemplo reciente del avance en tecnologías de generación de texto a video (T2V) y de imagen a video (I2V), y propone un nuevo estándar para la generación fusionada de audio y video
Resumen de Ovi
- Ovi es un modelo generativo cross-modal desarrollado en conjunto por Character AI y el equipo de investigación de Yale University, un sistema que genera audio y video sincronizados al mismo tiempo a partir de entradas de texto o texto+imagen
- La arquitectura del modelo se denomina “Twin Backbone Cross-Modal Fusion”, y utiliza un enfoque que entrena y fusiona en paralelo las ramas de audio y video
- El líder del proyecto es Weimin Wang, y los coautores son Chetwin Low y Calder Katyal
- Se presenta como un modelo similar a Veo-3, y preentrena desde cero una rama de audio de 5B parámetros utilizando el dataset interno de audio de Character AI
- Los videos generados tienen como base una duración de 5 segundos, 24FPS y resolución 720×720, y admiten varias proporciones como 9:16, 16:9 y 1:1
Funciones y características principales
- 🎬 Generación de video+audio: genera audio y video al mismo tiempo a partir de texto o imagen
- 🎵 Rama de audio de alta calidad: incluye una rama de audio entrenada con un gran dataset de audio construido internamente
- 📝 Entrada flexible: admite tanto solo texto como entrada de texto+imagen
- ⏱️ Generación de video de 5 segundos: crea videos cortos de 5 segundos a 24FPS
- 🎯 Soporte de alta resolución: puede generar resultados naturales incluso en resoluciones de 960×960 o superiores
- Como ejemplo, ofrece videos en varias proporciones como 1280×704, 1504×608 y 1344×704
- 🚀 Capacidad de upscaling: aunque el entrenamiento se realizó en 720×720, mantiene la consistencia temporal y espacial también en alta resolución
Plataformas y demos disponibles
- En Wavespeed.ai es posible generar texto→video e imagen→video
- También hay demo en HuggingFace Spaces
- Integración con ComfyUI (WIP): el modelo Ovi puede integrarse en flujos de trabajo mediante
ComfyUI-WanVideoWrapper
Entrenamiento y rendimiento
- Resolución de entrenamiento: 720×720
- Escalado de resolución en inferencia: soporte para 960×960 y varias relaciones de aspecto
- Mantenimiento de consistencia temporal: implementa transiciones naturales entre cuadros
- Calidad de sincronización audio-video: es posible controlar la calidad de sincronización ajustando la escala de guía de audio
Ejecución y configuración
- Proceso de instalación
- Instalar PyTorch 2.6.0, Flash Attention y las dependencias de requirements.txt
- Descargar checkpoints con
download_weights.py (incluye T5, VAE y MMAudio)
- Si la GPU tiene 24GB de VRAM, se pueden usar las versiones cuantizadas
fp8 o qint8
- Archivo de configuración de inferencia:
ovi/configs/inference/inference_fusion.yaml
- Principales opciones de configuración:
num_steps: cantidad de pasos de denoising (30~50)
audio_guidance_scale, video_guidance_scale: intensidad de sincronización audio/video
sp_size: tamaño del paralelismo de secuencia (configurarlo igual al número de GPU)
cpu_offload: modo de ahorro de VRAM de GPU
fp8: permite ejecución en entornos con 24GB de VRAM
- Ejemplos de ejecución de inferencia
- GPU única:
python3 inference.py --config-file ...
- Multi-GPU:
torchrun --nnodes 1 --nproc_per_node 8 inference.py ...
Requisitos de rendimiento y memoria
- El modelo base requiere al menos 32GB de VRAM, y en modo fp8 puede funcionar con 24GB
- Al activar FlashAttention-3 mejora la velocidad de procesamiento
- Con procesamiento paralelo por secuencia, al usar 4~8 GPU el tiempo de procesamiento ronda los 40~55 segundos
- Con CPU offloading se puede ahorrar VRAM, pero el tiempo de procesamiento aumenta unos 20 segundos
Ejecución de la UI de Gradio
- Se puede ejecutar una interfaz basada en Gradio con un comando simple
python3 gradio_app.py
- Soporta distintos entornos con las opciones
--cpu_offload, --use_image_gen, --qint8, --fp8
- En modo I2V, se activa automáticamente un modelo de generación de imágenes para crear el primer cuadro
Estructura de prompts y ejemplos
- Text-to-Audio-Video (T2AV):
example_prompts/gpt_examples_t2v.csv
- Image-to-Audio-Video (I2AV):
example_prompts/gpt_examples_i2v.csv
- Uso de etiquetas especiales
...: texto para conversión de voz
...: descripción de música de fondo y efectos de sonido
- Generación de prompts con GPT
- A partir de los CSV de ejemplo, se puede pedir a GPT que modifique los diálogos para un tema específico (por ejemplo, “enfrentamiento entre IA y humanos”)
- Luego se puede ingresar el prompt modificado en Ovi para generar videos basados en ese tema
Planes a futuro (Todo List)
- Próxima publicación del paper de investigación y del sitio web de demo
- Publicación de checkpoints del modelo 11B y del código de inferencia multi-GPU
- Próxima implementación de pesos fp8, mejoras de eficiencia en paralelismo por secuencia e inferencia sharded con FSDP
- Avance de investigación en fine-tuning con datos de alta resolución y mejora de rendimiento basada en RL
- Próximo desarrollo de generación de videos largos, condicionamiento por voz de referencia y modelos destilados para acelerar la inferencia
Agradecimientos técnicos y colaboración
- Wan2.2: usado para inicializar la rama de video
- MMAudio: reutilizado como audio VAE
- Contribuidores: @rkfg (optimización fp8), @gluttony-10 (cuantización qint8)
- Propuestas de colaboración y contacto: se puede contactar a Weimin Wang
Información de cita
- Paper: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
- arXiv: https://arxiv.org/abs/2510.01284
- Se proporciona BibTeX y se recomienda citarlo al usar la investigación
Metadatos del proyecto
- Licencia: Apache-2.0
- Composición de lenguajes: Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%
- Estadísticas de GitHub: ★955, forks 92, issues 20, PR 2
- Desarrolladores: equipo de Character AI e investigadores de Yale University
1 comentarios
Opiniones de Hacker News
Llevo meses probando herramientas de generación con IA, y sorprende ver cómo cada herramienta se está integrando rápidamente en una sola que incluso se puede usar en una máquina local
Empecé a usar Ovi la semana pasada y la verdad está muy divertido. El contenido generado por IA se parece a una tragamonedas: incluso si metes una buena entrada, a veces el resultado sale fatal, pero si lo corres varias veces, termina saliendo algo usable
He creado videos con I2V y T2V que se ven y suenan bastante reales. A veces T2V parece tener la calidad de una TV de los 90, pero eso hasta le da una sensación más realista
Si usas Flux SPRO como fuente de imagen, salen videos bastante realistas. Mi GPU es una 5090, así que tarda unos 4 o 5 minutos en generar un clip de 5 segundos
Parece que el modelo de video está basado en Wan 2.2
Últimamente hay mucha actividad alrededor de Wan, y da gusto ver aparecer un modelo abierto y flexible que compita con los modelos cerrados respaldados por grandes capitales, como OpenAI o Runway
También existe Wan 2.5, pero se enruta de forma anónima a través del proveedor oficial. Sale mucho más barato que opciones intermediadas como Kling, Veo o Sora
Antes trabajé en Ovi de Nokia. En ese entonces, Ovi era como una especie de GSuite para teléfonos Nokia, y aunque la explicación oficial era “Ovi significa puerta (Door) en finlandés”, internamente se bromeaba con que significaba “jardín de niños (Kindergarten) en húngaro”. No pude encontrar de dónde salió el nombre de este Ovi
Pero terminó hundiéndose por la falta de una estrategia de marca y una política fallida de software para dispositivos. Creo que se cerró por completo alrededor de 2013. Para entonces yo ya había dejado la empresa
Supongo que mis oídos son de la generación anterior a AutoTune, porque todavía noto en el audio esa perfección total del tono y las huellas de compresión (companding)
En particular, suena parecido a la voz del personaje Machine Head de la serie Invincible
Aun así, en general es un trabajo excelente
El proyecto en sí es interesante, pero todavía no tengo clara la utilidad práctica del contenido audiovisual generativo
Por ahora, me parece que trae más molestias que beneficios
A este ritmo, parece posible que en unos meses ya existan cortometrajes de alta calidad hechos totalmente con generación
Me dio curiosidad si estos proyectos están relacionados entre sí, así que comparé este hilo y este hilo
Hoy en día, gracias a las herramientas de IA para programar, es mucho más fácil automatizar este tipo de generación de landing pages
En el caso de I2V, si tienes una GPU NVIDIA 4070 o superior y suficiente VRAM, puedes obtener un borrador usable en 1 o 2 minutos a una resolución de 440x440
En T2V, la calidad sigue siendo estable solo cerca de la resolución con la que fue entrenado. Aun así, en las resoluciones conocidas de Wan salen buenos resultados de vez en cuando
Con CUDA 12.8 o superior, Torch 2.8 o superior, y usando SageAttention en lugar de Flash 2, la calidad mejora de forma notable
Es un avance interesante, pero da lástima que una empresa como CAI se haya quedado con esto
usando IA contra gente joven y solitaria