Lanzamiento de Stable Video Diffusion

(stability.ai)

14 puntos por GN⁺ 2023-11-22 | 2 comentarios | Compartir por WhatsApp

Stable Video Diffusion es el primer modelo generativo de video basado en el modelo de imágenes Stable Diffusion
Se ofrece como una vista previa para investigación, y este más reciente modelo generativo de video con IA representa un paso importante en el camino hacia la creación de diversos tipos de modelos
El código está disponible en el repositorio de GitHub, y los pesos necesarios para ejecutar el modelo localmente pueden encontrarse en la página de Hugging Face

Aplicable a diversas aplicaciones de video

Los modelos de video pueden aplicarse fácilmente a diversas tareas downstream, incluida la síntesis de múltiples vistas a partir de una sola imagen
Al igual que el ecosistema construido alrededor de Stable Diffusion, se planean diversos modelos que se construyan y expandan sobre esta base
Desde hoy es posible registrarse en la lista de espera para una nueva experiencia web con una interfaz de texto a video

Competitivo en rendimiento

Stable Video Diffusion se lanza con dos modelos de imagen a video capaces de generar 14 y 25 cuadros, con una tasa de cuadros personalizable entre 3 y 30 cuadros por segundo
En su lanzamiento en una forma básica, evaluaciones externas mostraron que estos modelos superaban a modelos cerrados líderes en estudios de preferencia de usuarios

Solo para investigación

Aunque existe entusiasmo por actualizar el modelo con los avances más recientes e incorporar retroalimentación, se enfatiza que en esta etapa no está pensado para aplicaciones del mundo real ni comerciales
La retroalimentación y los hallazgos sobre seguridad y calidad son importantes para perfeccionar el modelo con miras a su lanzamiento final

Expansión continua de los modelos de IA

Stable Video Diffusion es una incorporación destacada a la amplia gama de modelos de código abierto que abarcan diversas modalidades, incluidas imagen, lenguaje, audio, 3D y código
Un portafolio que demuestra el compromiso de Stability AI con la ampliación de la inteligencia humana.

Opinión de GN⁺

Lo más importante de este artículo es el lanzamiento del modelo Stable Video Diffusion, que muestra el avance de la tecnología de IA y abre posibilidades de aplicación en diversos campos.
Al ofrecer una nueva herramienta para investigadores y desarrolladores, y permitir la creación creativa de video, esta tecnología genera expectativas de aplicaciones interesantes en áreas como publicidad, educación y entretenimiento.

2 comentarios

xguru 2023-11-22

Le está llegando el momento de Stable Diffusion a los LLM

¿Será que ese momento de Stable Diffusion ahora también llegará al video? Sin duda, últimamente parece que el dinero entre las startups de IA en el extranjero sí se está concentrando en el lado del video.

GN⁺ 2023-11-22

Comentarios de Hacker News

En la parte inferior de la página del video aparecen dos pájaros (azulejos), y en el fondo hay dos edificios idénticos que parecen la CN Tower. La CN Tower es un punto de referencia importante de Toronto, y el equipo de béisbol de Toronto se llama Blue Jays. La torre está ubicada cerca del principal estadio deportivo del centro. Entiendo a grandes rasgos cómo funciona la conversión de texto a imagen, y me parece lógico que "azulejo" esté cerca de "Toronto" o "CN Tower" en el espacio vectorial. La mejora en escala y velocidad de imagen a video es impresionante, pero al ver lo capaces que son los modelos de generación de imágenes, siento que sigue siendo limitado por la falta de capacidad de edición o de trabajo iterativo. Por ejemplo, me pregunto si existe alguna solución para que el modelo realice tareas iterativas con prompts como "mueve la bicicleta de la foto hacia la izquierda". Siento que este campo está avanzando muy rápido.
El ritmo de avance en aprendizaje automático durante el último año ha sido asombroso. Si ControlNet se aplica adecuadamente al video, tengo mucha curiosidad por ver cómo la gente usará esta tecnología. Generar video desde cero también es genial, pero la verdadera utilidad de esta tecnología está en la consistencia temporal. Normalmente se necesita mucho posprocesamiento manual para obtener un video estable.
Sigo preguntándome cómo podría hacerse cumplir una licencia de modelo "no comercial". Las licencias de software regulan la redistribución del software, pero no regulan los productos generados con él. Por ejemplo, una imagen creada con GIMP no queda bajo licencia GPL.
Este campo se mueve muy rápido. Sale un nuevo paper en un abrir y cerrar de ojos. La velocidad de aprendizaje humana es sorprendente. Es muy interesante usar esto para tareas downstream. Me pregunto qué tan fácil sería integrar este modelo con animatediff. También me gustaría saber si se pueden hacer benchmarks en dispositivos m3 y si vale la pena usar un m3 pro para ejecutar este tipo de inferencia y desarrollo con difusión.
Un salto fascinante en el progreso técnico. Me hace pensar en la diferencia entre los ancestral samplers y los non-ancestral samplers. Por ejemplo, el método Euler es algo determinista y la salida no cambia aunque aumenten los pasos de muestreo, mientras que Euler Ancestral añade ruido en cada paso para generar más diversidad, pero es más aleatorio/probabilístico. Para generar video, creo que el sampler tendría que depender mucho del frame anterior mientras se inyecta algún tipo de sub-prompt. Por ejemplo, "rota cierto objeto 5 grados hacia la izquierda", etc. Me gusta la expresión "consistencia temporal" que usó otro comentarista.
Tiene sentido que eliminar todos los cortes y fundidos de los datos de entrenamiento podría mejorar los resultados. En la sección de antecedentes del paper de investigación se mencionan las "capas de convolución temporal"; ¿alguien podría explicar qué son? Me pregunto qué tipo de datos de entrenamiento se introducen para representar el estado temporal entre las imágenes que componen un video, o si significa otra cosa.
Es un avance muy genial. Hace unos meses probé algunos modelos de generación de "video" en Replicate y obtuve resultados muy interesantes, pero al final era evidente que los videos generados se hacían usando el frame anterior como prompt. Esta tecnología realmente parece capaz de producir algo con un contexto de mayor nivel. Es sorprendente ver este nivel de progreso en apenas poco más de medio año.
Le pido a Stability.ai que se asegure de que su junta directiva sea razonable.
Tengo muchas ganas de probar esta tecnología. Comparto algunos experimentos que he hecho recientemente.
Al igual que con las imágenes estáticas, es muy interesante observar defectos sutiles e involuntarios. Por ejemplo, el hombre con sombrero de vaquero parece casi ahogarse, y en el video del tren los rieles se ven demasiado anchos mientras el tren se mueve como si patinara sobre hielo.