Lanzamiento de Sora 2: el modelo de próxima generación de OpenAI para generar video y audio (Sora 2 is here)
(openai.com)🔑 Puntos clave
• Simulación física más realista
• Si el modelo anterior “teletransportaba” objetos para aparentar éxito, Sora 2 ahora reproduce incluso fallas físicas reales y rebotes.
• Ofrece resultados más cercanos a las leyes de la física, como un balón de básquet que golpea el aro y rebota hacia afuera.
• Control y consistencia mejorados
• Puede seguir con precisión instrucciones complejas (varias tomas, transiciones de escena, mantenimiento del estado).
• Mantiene el estado del mundo (world state) de personajes y objetos entre escenas.
• Variedad de estilos
• Puede generar video de alta calidad en realismo, estilo cinematográfico, animación y más.
• También permite generar audio sincronizado, incluyendo música de fondo, efectos de sonido y diálogos.
• Función “Upload yourself” (Cameos)
• El usuario sube un video y audio cortos → el modelo puede insertar a esa persona en cualquier escena.
• Refleja tanto la apariencia como la voz.
• El control sigue en manos del usuario, con posibilidad de gestionar accesos y eliminarlo.
• Lanzamiento de la app social ‘Sora’ (iOS)
• Una nueva red social centrada en funciones de generación, remix y compartición.
• Comienza por invitación y se lanza primero en Estados Unidos y Canadá.
• Base gratuita con ciertos límites de uso; el modelo Pro y la generación adicional serán de pago.
• Seguridad y lanzamiento responsable
• Algoritmo del feed: en vez de optimizar el tiempo de consumo, se enfoca en “impulsar la creación”.
• Protección de menores: límite en la exposición dentro del feed y funciones de control parental.
• Copyright y consentimiento: se garantizan derechos de acceso y eliminación para usuarios de Cameo.
• Refuerzo de la moderación humana para responder ante acoso y abuso.
• Contexto técnico
• Si Sora 1 fue el “GPT-1 del video”, Sora 2 es un “momento GPT-3.5”.
• Preentrenamiento (pre-training) y postentrenamiento (post-training) con más datos de video → un paso más hacia un modelo de simulación del mundo.
• Planes a futuro
• También estará disponible en sora.com.
• Está previsto Sora 2 Pro para usuarios Pro.
• Hay planes de publicar una API.
• El actual Sora 1 Turbo seguirá disponible.
⸻
📝 En resumen
• Sora 2 = modelo de generación de video y audio físicamente más preciso
• Permite insertar cameos de personas/objetos → experiencia disponible en la app social Sora
• Plataforma centrada en lo social y la creación → prioriza producir contenido más que consumir tiempo
• Lanzamiento inicial: iOS en Estados Unidos y Canadá → expansión prevista a web/Pro/API
2 comentarios
Si este tipo de producción de video se vuelve más común, quizá hasta podría alejar a la gente de la adicción a los shorts. Si también pudiera hacer shorts de alguien manejando un superauto usando mi propia cara, ¿qué tanto valor llegarían a tener los shorts de superautos?
Opiniones de Hacker News
Parece que OpenAI está intentando convertir Sora en una red social, es decir, una versión con IA de TikTok (AITok)
La webapp está enfocada en una estructura centrada en el consumo, con feed, likes y comentarios en las publicaciones, perfiles de usuario, etc.
La generación de video es algo secundario, y los videos generados son muy cortos y con ajustes simples (solo se puede elegir horizontal/vertical)
No se menciona ni siquiera se intenta hacer videos largos o centrados en historias, ni funciones avanzadas de edición, y frente a otras plataformas como Google Flow tiene muchas limitaciones funcionales
Adjuntó videos de prueba de precisión física, pero Veo tampoco logra funcionar bien con esos prompts
Además, es interesante que estén apareciendo tanto videos bastante impresionantes como videos muy deficientes
Ejemplo de física en Sora 1
Ejemplo de física en Sora 2
Ejemplo de Veo 1
Ejemplo de Veo 2
En lo personal me gustan la tecnología innovadora y la IA, pero no estoy seguro de que "TikTok pero con IA" sea un intento socialmente deseable
Si hay algún efecto positivo claro que pueda salir de esto, me interesa saber cuál sería
A menos que la eficiencia energética de la generación de video mejore de forma dramática, o que el costo de la energía se acerque a cero
no creo que un servicio de consumo masivo de video en tiempo real al nivel de TikTok tenga muchas probabilidades de ser rentable de forma sostenible
Por ahora, los videos subidos directamente por personas reales consumen mucha menos energía y cuestan mucho menos
La estrategia de OpenAI de hacer crecer Sora como red social en realidad es algo que Midjourney ya venía aplicando con las imágenes
Midjourney Explore - Videos
A mucha gente le gusta el estilo visual distintivo de Midjourney, y el modelo aprende a partir de valoraciones e interacciones
En generación de imágenes, además, el nivel de "estética" es más fácil de manejar
Meta también hizo un intento parecido recientemente
Meta anuncia Vibes AI Video
Reforzar las funciones de feed orientadas al consumo claramente es una de las direcciones posibles
Otra razón es que, en vez de que muchos usuarios gasten recursos escribiendo lo mismo en una ventana de prompt vacía para producir resultados parecidos,
es más eficiente mostrar primero buenos ejemplos y luego, mediante la discusión relacionada, llegar más rápido a resultados de alta calidad
Cada vez que veo tecnologías como esta me acuerdo de una línea de Jeff Goldblum en Jurassic Park
Nuestro jefe muestra videos mediocres hechos con estas herramientas y grita "este es el futuro",
pero parece que nunca se hace la pregunta básica de "¿quién quiere esto realmente y quién lo va a ver?"
El contenido de IA todavía tiene limitaciones que se notan de inmediato con solo verlo
¿Quién disfrutaría viendo un stream de videos hechos solo con IA? Desde el punto de vista de Meta está bien porque es más barato conseguir contenido así que pagarle a personas,
pero en la práctica no deja de ser "slop" de baja calidad
Se está tratando el tema del copyright con demasiada ligereza
Sora viene configurado por defecto para usar la IP del usuario en videos de IA, y el usuario tiene que excluirse de forma explícita si no quiere eso
Artículo relacionado
Además, da la impresión de que quienes impulsan proyectos con un impacto tan grande tienen poca experiencia de vida real
y están obsesionados con tecnología brillante y llamativa, sin interesarse por el impacto ni por las consecuencias
(Vibes de Meta va en la misma línea)
El artículo indica que esa nota fue escrita por un robot, así que me pregunto si habrá una fuente más confiable
En Grok se han usado personajes con copyright libremente durante más de un año y todavía no ha habido demandas
Este tipo de tecnología me hace pensar en la posibilidad de licenciarla a marcas
para producir videos publicitarios mucho más personalizados
Por ejemplo, sería una experiencia muy llamativa poder ver un video mío usando cierta ropa antes de pedirla de verdad
Si incluso llegara a generarse en tiempo real, uno podría imaginar que cada vez que pase frente al espejo de una tienda departamental, mi imagen cambie automáticamente entre distintos outfits
Son tiempos muy emocionantes
Si llegamos a ese punto, parece que ya ni siquiera haría falta comprar ropa físicamente
Los influencers podrían conformarse con subir videos simulados de sí mismos a redes sociales, promocionando experiencias sin ni siquiera ir en persona
Tweet meme relacionado
Más aún, se podrían generar y subir videos falsos donde aparezcas de fiesta con amigos sin haber salido realmente,
y al final podrías estar en casa comiendo helado mientras en redes proyectas una vida social muy activa
Siento que ya vi algo muy parecido en Minority Report
En la película era muy impactante cómo los anuncios llamaban directamente a Tom Cruise por su nombre
Minority Report - wiki de la película
Se le llama 'Virtual Try On (VTO)' y ya se usa bastante con imágenes estáticas
Es natural pensar que pronto llegará también el VTO en video
Al final, el uso más común de estos modelos de video probablemente se concentrará en visualizaciones personalizadas, por ejemplo probar productos de forma virtual
porque la gente al final prefiere conectar con otras personas antes que con una IA
Sora o VEO también podrían traer cambios importantes a la producción de cine o contenido televisivo
La colocación AR de muebles (probar virtualmente dónde quedaría un mueble en mi casa) también alguna vez fue llamada revolucionaria,
pero en la práctica casi nadie la usa
La razón principal por la que la generación de imágenes de ChatGPT atrajo a más de 100 millones de usuarios en su primera semana
fue que a la gente le encanta crear con IA fotos de sus amigos, su familia y sus mascotas
Supongo que la "función de cameo" también apunta a recuperar ese mismo atractivo viral
así que mientras PETA no se oponga, no parece haber problema
Lo más interesante es
la función donde, si el usuario incluye clips de video de personas o productos dentro del prompt,
la IA genera videos realistas basándose en esos metadatos
Técnicamente parece ser el efecto de haber preentrenado con un dataset muy sofisticado,
y desde el punto de vista del usuario podría convertirse en una función comercial realmente útil
Pero este tipo de innovación basada en datos es algo que Google también podría alcanzar pronto gracias a YouTube,
y es muy posible que ya tenga tecnología similar funcionando internamente
Desde la perspectiva de alguien que invierte su dinero ganado con esfuerzo, una imagen manipulada o un producto inexistente se acerca mucho al fraude
Creo que las reseñas y anuncios basados en una fantasía, y no en el producto real, son éticamente problemáticos
Todo este desarrollo es básicamente un avance hacia un stream infinito de contenido personalizado con IA
una estructura optimizada para maximizar la dopamina individual
Se siente como una especie de Torment Nexus tipo Skinner box (un dispositivo diseñado para inducir conductas repetitivas en busca de placer)
Por ahora, esta estructura no parece sostenible ni en términos de energía ni de recursos
Uno de los prompts de ejemplo, "una intensa batalla animada entre un chico con una espada hecha de luz azul y un espíritu maligno",
es casi idéntico al concepto del manga japonés Blue Exorcist
Blue Exorcist (wiki)
Incluso hay un prompt de ejemplo que dice: "'al estilo de una animación de Studio Ghibli, un niño y un cachorro suben una montaña azul y a lo lejos se ve un pueblo'"
El personaje del dragón da la impresión de estar tomado casi directamente de How to Train Your Dragon
Me pregunto si tienen acuerdos con los titulares de derechos, o si están buscando deliberadamente una demanda para conseguir exposición mediática
Desde el punto de vista de ingeniería, el resultado es realmente impresionante
La calidad del video ya es lo bastante alta como para atrapar la atención, e incluso se siente el uncanny valley
OpenAI está haciendo un gran trabajo acostumbrando gradualmente al público a esta nueva tecnología
Esta versión tiene muchas restricciones, pero da la sensación de que en una o dos generaciones podría cruzar el umbral técnico
Por ejemplo, en el mercado de los LLM, Gemini 2.5 Pro fue un verdadero punto de inflexión, y parece que Sora pronto podría tener uno similar
Desde la perspectiva de un creador, sería ideal contar con una función que permita crear primero varios assets (fondos, objetos, etc.) como un set y luego enlazar de forma natural varias escenas
La continuidad del video ha mejorado de manera sorprendente
Aun así, todavía saltan a la vista varios errores
Me da curiosidad cómo resolverán problemas de storyboard más complejos
El video escondió los problemas de continuidad con una cantidad enorme de cortes y cambios rápidos de cámara
Se nota que en cada corte siguen cambiando todos los elementos, como la lenteja de agua, la moto de nieve, etc.
Al final, solo la cara se ve consistente
En general siguen estando los problemas típicos del video generado por IA, y casi no hay escenas que duren más de 5 segundos en un mismo entorno
Incluso en la escena de la carrera de patos, cuando aparece Sam ya hay un césped completamente distinto
Que incluso este demo tenga tantos errores
sugiere que los resultados de usuarios comunes serán mucho peores
En la escena del estanque donde usan bo staff, el ángulo de la muñeca se dobla de forma antinatural
En el demo del bo staff en el estanque, también se detectan fácilmente momentos claramente "con pinta de IA", como cuando el palo de madera de repente se transforma en una especie de arco