Ovi - fusión multimodal de doble backbone para la generación de audio y video

(github.com/character-ai)

1 puntos por GN⁺ 2025-10-24 | 1 comentarios | Compartir por WhatsApp

Ovi, desarrollado por Character AI, es un modelo de IA que genera audio y video simultáneamente a partir de entradas de texto o imagen
Ovi combina una rama de audio de 5B construida internamente con una rama de video basada en Wan2.2 para generar contenido audiovisual sincronizado y de alta calidad
El modelo fue entrenado en resolución 720×720, pero también genera resultados naturales en resoluciones de 960×960 o superiores, y admite varias relaciones de aspecto (9:16, 16:9, etc.)
Ofrece varias opciones de ejecución y funciones de optimización, como Gradio UI, integración con ComfyUI (WIP), inferencia multi-GPU y cuantización qint8/fp8
Este proyecto es un ejemplo reciente del avance en tecnologías de generación de texto a video (T2V) y de imagen a video (I2V), y propone un nuevo estándar para la generación fusionada de audio y video

Resumen de Ovi

Ovi es un modelo generativo cross-modal desarrollado en conjunto por Character AI y el equipo de investigación de Yale University, un sistema que genera audio y video sincronizados al mismo tiempo a partir de entradas de texto o texto+imagen
- La arquitectura del modelo se denomina “Twin Backbone Cross-Modal Fusion”, y utiliza un enfoque que entrena y fusiona en paralelo las ramas de audio y video
- El líder del proyecto es Weimin Wang, y los coautores son Chetwin Low y Calder Katyal
Se presenta como un modelo similar a Veo-3, y preentrena desde cero una rama de audio de 5B parámetros utilizando el dataset interno de audio de Character AI
Los videos generados tienen como base una duración de 5 segundos, 24FPS y resolución 720×720, y admiten varias proporciones como 9:16, 16:9 y 1:1

Funciones y características principales

🎬 Generación de video+audio: genera audio y video al mismo tiempo a partir de texto o imagen
🎵 Rama de audio de alta calidad: incluye una rama de audio entrenada con un gran dataset de audio construido internamente
📝 Entrada flexible: admite tanto solo texto como entrada de texto+imagen
⏱️ Generación de video de 5 segundos: crea videos cortos de 5 segundos a 24FPS
🎯 Soporte de alta resolución: puede generar resultados naturales incluso en resoluciones de 960×960 o superiores
- Como ejemplo, ofrece videos en varias proporciones como 1280×704, 1504×608 y 1344×704
🚀 Capacidad de upscaling: aunque el entrenamiento se realizó en 720×720, mantiene la consistencia temporal y espacial también en alta resolución

Plataformas y demos disponibles

En Wavespeed.ai es posible generar texto→video e imagen→video
- https://wavespeed.ai/models/character-ai/ovi/image-to-video
- https://wavespeed.ai/models/character-ai/ovi/text-to-video
También hay demo en HuggingFace Spaces
- https://huggingface.co/spaces/akhaliq/Ovi
Integración con ComfyUI (WIP): el modelo Ovi puede integrarse en flujos de trabajo mediante ComfyUI-WanVideoWrapper

Entrenamiento y rendimiento

Resolución de entrenamiento: 720×720
Escalado de resolución en inferencia: soporte para 960×960 y varias relaciones de aspecto
Mantenimiento de consistencia temporal: implementa transiciones naturales entre cuadros
Calidad de sincronización audio-video: es posible controlar la calidad de sincronización ajustando la escala de guía de audio

Ejecución y configuración

Proceso de instalación
- Instalar PyTorch 2.6.0, Flash Attention y las dependencias de requirements.txt
- Descargar checkpoints con download_weights.py (incluye T5, VAE y MMAudio)
- Si la GPU tiene 24GB de VRAM, se pueden usar las versiones cuantizadas fp8 o qint8
Archivo de configuración de inferencia: ovi/configs/inference/inference_fusion.yaml
- Principales opciones de configuración:
  - num_steps: cantidad de pasos de denoising (30~50)
  - audio_guidance_scale, video_guidance_scale: intensidad de sincronización audio/video
  - sp_size: tamaño del paralelismo de secuencia (configurarlo igual al número de GPU)
  - cpu_offload: modo de ahorro de VRAM de GPU
  - fp8: permite ejecución en entornos con 24GB de VRAM
Ejemplos de ejecución de inferencia
- GPU única: python3 inference.py --config-file ...
- Multi-GPU: torchrun --nnodes 1 --nproc_per_node 8 inference.py ...

Requisitos de rendimiento y memoria

El modelo base requiere al menos 32GB de VRAM, y en modo fp8 puede funcionar con 24GB
Al activar FlashAttention-3 mejora la velocidad de procesamiento
Con procesamiento paralelo por secuencia, al usar 4~8 GPU el tiempo de procesamiento ronda los 40~55 segundos
Con CPU offloading se puede ahorrar VRAM, pero el tiempo de procesamiento aumenta unos 20 segundos

Ejecución de la UI de Gradio

Se puede ejecutar una interfaz basada en Gradio con un comando simple
- python3 gradio_app.py
- Soporta distintos entornos con las opciones --cpu_offload, --use_image_gen, --qint8, --fp8
En modo I2V, se activa automáticamente un modelo de generación de imágenes para crear el primer cuadro

Estructura de prompts y ejemplos

Text-to-Audio-Video (T2AV): example_prompts/gpt_examples_t2v.csv
Image-to-Audio-Video (I2AV): example_prompts/gpt_examples_i2v.csv
Uso de etiquetas especiales
- ...: texto para conversión de voz
- ...: descripción de música de fondo y efectos de sonido
Generación de prompts con GPT
- A partir de los CSV de ejemplo, se puede pedir a GPT que modifique los diálogos para un tema específico (por ejemplo, “enfrentamiento entre IA y humanos”)
- Luego se puede ingresar el prompt modificado en Ovi para generar videos basados en ese tema

Planes a futuro (Todo List)

Próxima publicación del paper de investigación y del sitio web de demo
Publicación de checkpoints del modelo 11B y del código de inferencia multi-GPU
Próxima implementación de pesos fp8, mejoras de eficiencia en paralelismo por secuencia e inferencia sharded con FSDP
Avance de investigación en fine-tuning con datos de alta resolución y mejora de rendimiento basada en RL
Próximo desarrollo de generación de videos largos, condicionamiento por voz de referencia y modelos destilados para acelerar la inferencia

Agradecimientos técnicos y colaboración

Wan2.2: usado para inicializar la rama de video
MMAudio: reutilizado como audio VAE
Contribuidores: @rkfg (optimización fp8), @gluttony-10 (cuantización qint8)
Propuestas de colaboración y contacto: se puede contactar a Weimin Wang

Información de cita

Paper: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
arXiv: https://arxiv.org/abs/2510.01284
Se proporciona BibTeX y se recomienda citarlo al usar la investigación

Metadatos del proyecto

Licencia: Apache-2.0
Composición de lenguajes: Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%
Estadísticas de GitHub: ★955, forks 92, issues 20, PR 2
Desarrolladores: equipo de Character AI e investigadores de Yale University

1 comentarios

GN⁺ 2025-10-24

Opiniones de Hacker News

Llevo meses probando herramientas de generación con IA, y sorprende ver cómo cada herramienta se está integrando rápidamente en una sola que incluso se puede usar en una máquina local
Empecé a usar Ovi la semana pasada y la verdad está muy divertido. El contenido generado por IA se parece a una tragamonedas: incluso si metes una buena entrada, a veces el resultado sale fatal, pero si lo corres varias veces, termina saliendo algo usable
He creado videos con I2V y T2V que se ven y suenan bastante reales. A veces T2V parece tener la calidad de una TV de los 90, pero eso hasta le da una sensación más realista
Si usas Flux SPRO como fuente de imagen, salen videos bastante realistas. Mi GPU es una 5090, así que tarda unos 4 o 5 minutos en generar un clip de 5 segundos
Parece que el modelo de video está basado en Wan 2.2
Últimamente hay mucha actividad alrededor de Wan, y da gusto ver aparecer un modelo abierto y flexible que compita con los modelos cerrados respaldados por grandes capitales, como OpenAI o Runway
- Lo principal son los modelos de video open source centrados en la privacidad que ofrece VeniceAI. Ovi soporta imagen→video, Wan 2.1 imagen→video y Wan 2.2 texto→video
  También existe Wan 2.5, pero se enruta de forma anónima a través del proveedor oficial. Sale mucho más barato que opciones intermediadas como Kling, Veo o Sora
- La discusión relacionada también apareció en el hilo Wan – Open-source alternative to VEO 3
- Y además Google también está metido en esto
Antes trabajé en Ovi de Nokia. En ese entonces, Ovi era como una especie de GSuite para teléfonos Nokia, y aunque la explicación oficial era “Ovi significa puerta (Door) en finlandés”, internamente se bromeaba con que significaba “jardín de niños (Kindergarten) en húngaro”. No pude encontrar de dónde salió el nombre de este Ovi
- Yo también trabajé en un proyecto relacionado con Ovi. En reuniones iniciales en la sede de Helsinki, escuché a ejecutivos decir que querían competir con Google, y la verdad fue un intento bastante audaz
  Pero terminó hundiéndose por la falta de una estrategia de marca y una política fallida de software para dispositivos. Creo que se cerró por completo alrededor de 2013. Para entonces yo ya había dejado la empresa
Supongo que mis oídos son de la generación anterior a AutoTune, porque todavía noto en el audio esa perfección total del tono y las huellas de compresión (companding)
En particular, suena parecido a la voz del personaje Machine Head de la serie Invincible
Aun así, en general es un trabajo excelente
El proyecto en sí es interesante, pero todavía no tengo clara la utilidad práctica del contenido audiovisual generativo
Por ahora, me parece que trae más molestias que beneficios
A este ritmo, parece posible que en unos meses ya existan cortometrajes de alta calidad hechos totalmente con generación
- Pero al mismo tiempo, también creo que veremos casos en los que la vida de alguien quede destruida por el uso malicioso de deepfakes
- O quizá llegue un futuro de fiestas de prompts, donde amigos se junten, cada quien escriba su prompt, unan todo y vean juntos la película resultante. Solo imaginarlo ya da risa
- Aun así, creo que antes que los cortometrajes veremos películas de larga duración, porque mientras más corto es el video, más difícil resulta lograr un buen nivel de acabado
Me dio curiosidad si estos proyectos están relacionados entre sí, así que comparé este hilo y este hilo
- Cuando sale un nuevo modelo open weights, los oportunistas intentan registrar dominios con ese nombre y ganar dinero con SEO
  Hoy en día, gracias a las herramientas de IA para programar, es mucho más fácil automatizar este tipo de generación de landing pages
En el caso de I2V, si tienes una GPU NVIDIA 4070 o superior y suficiente VRAM, puedes obtener un borrador usable en 1 o 2 minutos a una resolución de 440x440
En T2V, la calidad sigue siendo estable solo cerca de la resolución con la que fue entrenado. Aun así, en las resoluciones conocidas de Wan salen buenos resultados de vez en cuando
Con CUDA 12.8 o superior, Torch 2.8 o superior, y usando SageAttention en lugar de Flash 2, la calidad mejora de forma notable
Es un avance interesante, pero da lástima que una empresa como CAI se haya quedado con esto
usando IA contra gente joven y solitaria

Ovi - fusión multimodal de doble backbone para la generación de audio y video

Resumen de Ovi

Funciones y características principales

Plataformas y demos disponibles

Entrenamiento y rendimiento

Ejecución y configuración

Requisitos de rendimiento y memoria

Ejecución de la UI de Gradio

Estructura de prompts y ejemplos

Planes a futuro (Todo List)

Agradecimientos técnicos y colaboración

Información de cita

Metadatos del proyecto

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News