Lightricks LTX-2 - el primer modelo open source de generación integrada de audio y video
(aisparkup.com)📝 TL;DR
- LTX-2 = un nuevo referente para los modelos open source de generación de video multimodal
- Genera 4K+audio en tiempo real con hardware de consumo
- A finales de noviembre se publicarán por completo los pesos del modelo + código + benchmarks
- Creado por Lightricks, con paper publicado en arXiv
🔑 Puntos clave
-
El primer modelo open source de generación sincronizada de audio y video
- Sora 2 y Movie Gen son comerciales/privados; LTX-2 se liberará como open source completo a finales de noviembre
- Genera video 4K a 50fps, hasta 10 segundos, con audio sincronizado
-
Velocidad de generación más rápida que tiempo real
- H100: genera un video de 5 segundos a 24fps en resolución 768x512 en solo 2 segundos
- Reduce el costo computacional en 50% frente a modelos previos
- También puede ejecutarse en GPUs de consumo (como la RTX 4090)
-
Innovación en la arquitectura híbrida DiT
- Video-VAE: tasa de compresión de 1:192 (downscaling de 32x32x8)
- El decoder VAE realiza incluso el denoising final → mantiene detalles finos sin necesidad de upsampling adicional
- Logra rendimiento en tiempo real con un stack de inferencia multi-GPU
-
Control creativo detallado
- Conditioning con múltiples keyframes, lógica de cámara 3D
- Fine-tuning con LoRA para mantener consistencia de estilo/IP o de marca
- Tres modos: Fast/Pro/Ultra para ajustar velocidad-calidad
-
Un ecosistema listo para usarse de inmediato
- Integración ya disponible con Fal.ai, Replicate y ComfyUI
- Se puede probar en el API Playground
- Soporta integración directa con herramientas de edición, stacks de VFX y motores de juego
Aún no hay comentarios.