5 puntos por davespark 2025-10-26 | Aún no hay comentarios. | Compartir por WhatsApp

📝 TL;DR

  • LTX-2 = un nuevo referente para los modelos open source de generación de video multimodal
  • Genera 4K+audio en tiempo real con hardware de consumo
  • A finales de noviembre se publicarán por completo los pesos del modelo + código + benchmarks
  • Creado por Lightricks, con paper publicado en arXiv

🔑 Puntos clave

  • El primer modelo open source de generación sincronizada de audio y video

    • Sora 2 y Movie Gen son comerciales/privados; LTX-2 se liberará como open source completo a finales de noviembre
    • Genera video 4K a 50fps, hasta 10 segundos, con audio sincronizado
  • Velocidad de generación más rápida que tiempo real

    • H100: genera un video de 5 segundos a 24fps en resolución 768x512 en solo 2 segundos
    • Reduce el costo computacional en 50% frente a modelos previos
    • También puede ejecutarse en GPUs de consumo (como la RTX 4090)
  • Innovación en la arquitectura híbrida DiT

    • Video-VAE: tasa de compresión de 1:192 (downscaling de 32x32x8)
    • El decoder VAE realiza incluso el denoising final → mantiene detalles finos sin necesidad de upsampling adicional
    • Logra rendimiento en tiempo real con un stack de inferencia multi-GPU
  • Control creativo detallado

    • Conditioning con múltiples keyframes, lógica de cámara 3D
    • Fine-tuning con LoRA para mantener consistencia de estilo/IP o de marca
    • Tres modos: Fast/Pro/Ultra para ajustar velocidad-calidad
  • Un ecosistema listo para usarse de inmediato

    • Integración ya disponible con Fal.ai, Replicate y ComfyUI
    • Se puede probar en el API Playground
    • Soporta integración directa con herramientas de edición, stacks de VFX y motores de juego

Aún no hay comentarios.

Aún no hay comentarios.