OpenAI Sora: presentan un modelo de IA que genera video a partir de texto

(openai.com)

12 puntos por GN⁺ 2024-02-16 | 6 comentarios | Compartir por WhatsApp

Sora es un modelo de IA que crea escenas realistas e imaginativas a partir de instrucciones de texto
Puede generar videos de hasta 1 minuto manteniendo la fidelidad al prompt del usuario y la calidad visual
Se presentan ejemplos de videos generados a partir de diversos prompts que ofrecen escenarios detallados
- Todos los videos de esta página fueron creados directamente por Sora y no han sido editados en absoluto
Actualmente, Sora está siendo proporcionado a equipos de "red teaming" para evaluar riesgos, y también está recibiendo retroalimentación de artistas visuales, diseñadores y cineastas
OpenAI busca compartir el progreso de la investigación para recibir retroalimentación externa y mostrar al público el futuro de las capacidades de la IA

Capacidades de Sora

Puede generar escenas complejas con múltiples personajes, movimientos específicos y detalles precisos del sujeto y el fondo
Comprende no solo el prompt del usuario, sino también cómo existen las cosas en el mundo físico

Seguridad de Sora

OpenAI planea tomar varias medidas de seguridad antes de integrar Sora en sus productos
Esto incluye desarrollar herramientas para detectar contenido engañoso y un clasificador que permita determinar si un video fue generado por Sora

Tecnología de investigación

Sora es un modelo de difusión que comienza con un video lleno de ruido y lo va eliminando gradualmente para generar el video
Usa una arquitectura transformer similar a la de los modelos GPT, lo que ofrece una excelente capacidad de escalamiento

Opinión de GN⁺

Sora es una tecnología de IA innovadora que genera video a partir de instrucciones basadas en texto y abre nuevas posibilidades para profesionales creativos
Aprender del uso en el mundo real mediante medidas de seguridad y retroalimentación cumple un papel importante para volver gradualmente más seguros los sistemas de IA
Esta tecnología parece ser un hito importante para alcanzar la futura AGI (inteligencia artificial general)

6 comentarios

draupnir 2024-02-17

De verdad no me sale más que admiración.
¿Seguro que van a conseguir 7 billones...?

laeyoung 2024-02-16

A simple vista, no se sabe bien si es un video real o uno creado por IA.

edunga1 2024-02-16

Vaya... quiero probarlo pronto.
Supongo que eso de modelo de difusión significa que funciona de forma similar a Stable Diffusion, ¿no?

dothx 2024-02-16

Parece que el mercado de stock photos y stock videos la va a tener difícil..

xguru 2024-02-16

La calidad de generación es impresionante. ¿Está avanzando así de rápido?

GN⁺ 2024-02-16

Comentarios en Hacker News

Un usuario expresó preocupación por el futuro a pesar del logro técnico. Cree que la red de seguridad social es insuficiente y que no nos estamos acercando a un ingreso básico universal (UBI). También manifestó temor ante la posibilidad de que una sola empresa concentre demasiado poder.
Otro usuario quedó profundamente impresionado por la calidad del movimiento generado por computadora. Señaló que, a diferencia de la captura de movimiento, en la animación por computadora es difícil lograr movimientos que se sientan reales, pero que en este caso se ven muy realistas.
Otro usuario destacó la importancia del modelo más allá del aspecto de imagen/video, ya que muestra una comprensión de la física y de las relaciones entre objetos. Evaluó que los ejemplos mencionados como fallas en realidad son casos importantes que demuestran una sólida comprensión del mundo por parte del modelo.
Según The Hollywood Reporter, muchas personas en la industria sienten temor por sus empleos debido al avance de las herramientas de IA. Algunas incluso están considerando dejar la industria, y se espera que estas herramientas afecten especialmente los trabajos en la producción publicitaria.
Un usuario mencionó que el resultado supera por mucho a los modelos que se han presentado hasta ahora.
Otro usuario llamó la atención sobre pequeños errores detectados en el video de Tokio y se preguntó si este tipo de errores siempre estará presente en el contenido generado, y si los niños expuestos a este tipo de contenido desde pequeños se volverán insensibles a ellos.
Un usuario comentó que el modelo Gemini 1.5 ya hizo ver anticuados a los modelos actuales y expresó sorpresa de que Google lo anunciara mediante una entrada de blog.
Un programador expresó una sensación ominosa ante el avance de la IA, diciendo que va más allá del simple miedo a perder el trabajo. Sobre la calidad del video, dijo que es increíblemente impresionante.
Un usuario planteó una pregunta técnica sobre la forma en que se genera el video y mostró curiosidad por cómo el modelo separa la estructura geométrica de la escena y la cámara.
Finalmente, otro usuario opinó que el avance de la tecnología traerá cambios culturales y que hará que la gente quiera ver más obras teatrales, conferencias y conciertos humanos en los teatros. Así como volvió a crecer la popularidad del vinilo, cree que el teatro también podría volver a ponerse de moda.