12 puntos por GN⁺ 2024-02-16 | 6 comentarios | Compartir por WhatsApp
  • Sora es un modelo de IA que crea escenas realistas e imaginativas a partir de instrucciones de texto
  • Puede generar videos de hasta 1 minuto manteniendo la fidelidad al prompt del usuario y la calidad visual
  • Se presentan ejemplos de videos generados a partir de diversos prompts que ofrecen escenarios detallados
    • Todos los videos de esta página fueron creados directamente por Sora y no han sido editados en absoluto
  • Actualmente, Sora está siendo proporcionado a equipos de "red teaming" para evaluar riesgos, y también está recibiendo retroalimentación de artistas visuales, diseñadores y cineastas
  • OpenAI busca compartir el progreso de la investigación para recibir retroalimentación externa y mostrar al público el futuro de las capacidades de la IA

Capacidades de Sora

  • Puede generar escenas complejas con múltiples personajes, movimientos específicos y detalles precisos del sujeto y el fondo
  • Comprende no solo el prompt del usuario, sino también cómo existen las cosas en el mundo físico

Seguridad de Sora

  • OpenAI planea tomar varias medidas de seguridad antes de integrar Sora en sus productos
  • Esto incluye desarrollar herramientas para detectar contenido engañoso y un clasificador que permita determinar si un video fue generado por Sora

Tecnología de investigación

  • Sora es un modelo de difusión que comienza con un video lleno de ruido y lo va eliminando gradualmente para generar el video
  • Usa una arquitectura transformer similar a la de los modelos GPT, lo que ofrece una excelente capacidad de escalamiento

Opinión de GN⁺

  • Sora es una tecnología de IA innovadora que genera video a partir de instrucciones basadas en texto y abre nuevas posibilidades para profesionales creativos
  • Aprender del uso en el mundo real mediante medidas de seguridad y retroalimentación cumple un papel importante para volver gradualmente más seguros los sistemas de IA
  • Esta tecnología parece ser un hito importante para alcanzar la futura AGI (inteligencia artificial general)

6 comentarios

 
draupnir 2024-02-17

De verdad no me sale más que admiración.
¿Seguro que van a conseguir 7 billones...?

 
laeyoung 2024-02-16

A simple vista, no se sabe bien si es un video real o uno creado por IA.

 
edunga1 2024-02-16

Vaya... quiero probarlo pronto.
Supongo que eso de modelo de difusión significa que funciona de forma similar a Stable Diffusion, ¿no?

 
dothx 2024-02-16

Parece que el mercado de stock photos y stock videos la va a tener difícil..

 
xguru 2024-02-16

La calidad de generación es impresionante. ¿Está avanzando así de rápido?

 
GN⁺ 2024-02-16
Comentarios en Hacker News
  • Un usuario expresó preocupación por el futuro a pesar del logro técnico. Cree que la red de seguridad social es insuficiente y que no nos estamos acercando a un ingreso básico universal (UBI). También manifestó temor ante la posibilidad de que una sola empresa concentre demasiado poder.
  • Otro usuario quedó profundamente impresionado por la calidad del movimiento generado por computadora. Señaló que, a diferencia de la captura de movimiento, en la animación por computadora es difícil lograr movimientos que se sientan reales, pero que en este caso se ven muy realistas.
  • Otro usuario destacó la importancia del modelo más allá del aspecto de imagen/video, ya que muestra una comprensión de la física y de las relaciones entre objetos. Evaluó que los ejemplos mencionados como fallas en realidad son casos importantes que demuestran una sólida comprensión del mundo por parte del modelo.
  • Según The Hollywood Reporter, muchas personas en la industria sienten temor por sus empleos debido al avance de las herramientas de IA. Algunas incluso están considerando dejar la industria, y se espera que estas herramientas afecten especialmente los trabajos en la producción publicitaria.
  • Un usuario mencionó que el resultado supera por mucho a los modelos que se han presentado hasta ahora.
  • Otro usuario llamó la atención sobre pequeños errores detectados en el video de Tokio y se preguntó si este tipo de errores siempre estará presente en el contenido generado, y si los niños expuestos a este tipo de contenido desde pequeños se volverán insensibles a ellos.
  • Un usuario comentó que el modelo Gemini 1.5 ya hizo ver anticuados a los modelos actuales y expresó sorpresa de que Google lo anunciara mediante una entrada de blog.
  • Un programador expresó una sensación ominosa ante el avance de la IA, diciendo que va más allá del simple miedo a perder el trabajo. Sobre la calidad del video, dijo que es increíblemente impresionante.
  • Un usuario planteó una pregunta técnica sobre la forma en que se genera el video y mostró curiosidad por cómo el modelo separa la estructura geométrica de la escena y la cámara.
  • Finalmente, otro usuario opinó que el avance de la tecnología traerá cambios culturales y que hará que la gente quiera ver más obras teatrales, conferencias y conciertos humanos en los teatros. Así como volvió a crecer la popularidad del vinilo, cree que el teatro también podría volver a ponerse de moda.