Experimento para automatizar casi por completo con IA la creación de historias y videos a partir de

Para cualquiera, crear storytelling es algo muy importante, pero también difícil.
Al final de cuentas, la clave está en crear una buena historia.
Con la aparición de ChatGPT hubo una innovación en la generación de historias con IA, pero todavía
queda mucho camino por recorrer.

Hace casi un año hice un libro de cuentos usando ChatGPT y Stable Diffusion,
y lo publiqué en Kakao Brunch, así que esta vez decidí intentar algo más multimodal.

El objetivo, después de una configuración inicial, fue que “lo esencial fuera la automatización no atendida, donde más del 99% del proceso hasta el resultado final lo hiciera la propia IA, sin intervención humana”.
Por supuesto, era indispensable que una historia novedosa y con coherencia estuviera conectada mediante relaciones de causa y efecto.

Con eso en mente, definí como meta de ejecución “contenido de YouTube para niños”.
Las razones para elegir contenido infantil fueron:

que sería relativamente más fácil trabajar la historia
que el efecto esperado sería grande en relación con la calidad del video
que era mi primera vez haciendo contenido infantil y quería intentarlo

[Diseñar una estrategia de ejecución concreta (arquitectura) y construirla directamente]

Consideré que la lógica de generación de historias debía “diseñarse con una estructura donde se mantenga la consistencia y se sigan agregando nuevos episodios”, para que tuviera continuidad.
Por eso creé un GPTs especializado en storytelling infantil (por ahora configurado para que solo yo lo vea).
Las instrucciones del GPTs tienen aproximadamente una página tamaño A4 y están configuradas con muchísimo detalle ("el objetivo es que pueda mantener el concepto general y el contexto").
Hice que en la introducción y el cierre de todos los textos se usaran obligatoriamente ciertas palabras clave definidas (una configuración textual para que incluso alguien que vea el video por primera vez pueda reconocer el concepto y el contexto, y quede esperando el siguiente episodio).
El cuerpo principal avanza de forma natural en el eje crisis, conflicto y resolución, y además definí muchos ejemplos detallados para que, manteniendo el contexto, la generación de nuevos episodios también siga esas reglas.
*La razón por la que definí el concepto de "La aventura de Tori" como “un niño cuyo rostro cambia cada mañana al despertar” fue que mantener la misma seed en la generación de imágenes es complicado, así que la intención era convertir esa desventaja en una ventaja; además, como cada vez se genera un episodio nuevo, concluí que era incluso mejor.
Conecté por API las Actions mediante Zapier para procesar después los guiones generados por GPTs y producir el contenido multimodal.

*Para el método detallado de configuración de GPTs Actions, consulta el enlace de Kakao Brunch que escribí
https://brunch.co.kr/@seawolf/9

Al conectarlo con GPTs, hice que GPTs me preguntara por la “palabra clave del tema del nuevo episodio”. Eso es lo único que debe decidir una persona. Claro, también podría hacerse al azar.
El método para obtener la “palabra clave del tema” sigue el procedimiento definido en las instrucciones de la siguiente manera.

A través de portales de búsqueda, hice que extrajera y mostrara las “palabras clave” más recientes que prefieren los “niños” (juzgándolo por el volumen de tráfico de búsqueda, etc.; al probarlo, juegos y actividades lúdicas fueron, como era de esperarse, abrumadoramente dominantes).
Si se elige una palabra clave de las sugeridas
según la lógica definida en las instrucciones, genera de inmediato una nueva historia de una página con coherencia
En la mayoría de los casos el contenido novedoso resulta satisfactorio, pero se puede pedir por prompt algún cambio o eliminación parcial
Si se le da la orden de enviar el texto final confirmado “a mi correo o por API” mediante Actions, se envía de inmediato y se activa el trigger.

Ahora, en Zapier, que fue llamado desde GPTs y recibió el valor transmitido (texto), se llaman las API en el orden que configuré, y se realizan el procesamiento, la integración y la generación de datos.
Componentes multimodales hasta la generación final del video (uso de API y varias plataformas de servicios)

guion de texto optimizado
generación de texto a voz
extracción automática del contexto y palabras clave de los fragmentos del guion (por lo general, de 1 a 3 oraciones por bloque) para generar imágenes
colocación automática de elementos adicionales como música, efectos de sonido y emojis, de acuerdo con el contexto
salida de la voz generada como subtítulos
renderizado final del video
opcionalmente, “conversión multilingüe”

Se completa con la descarga del resultado final
Se registra como contenido de YouTube

Al medir el tiempo requerido (cada vez es más rápido):

Todo el proceso de generar una nueva historia con GPTs: menos de 1 minuto
Procesamiento posterior de las API backend mediante la llamada de Actions: alrededor de 1 a 2 minutos
Hasta la generación automática del video multimodal final: unos 3 minutos
Si en esta parte una persona revisa y hace algunos retoques donde haga falta, la calidad sube mucho (si son solo retoques simples, toma unos 3 minutos)
Renderizado final: 3 a 5 minutos (depende del tamaño del video)
Es decir, en 10 minutos se puede crear un video infantil bastante sólido y entretenido, con fondo de modelado 3D.
Y en cuanto al costo, aun sumando las tarifas de varias API pagas, incluyendo OPENAI, y el hosting, en términos de costo por producir un video de menos de 3 minutos, sería menos de 1,000 won por minuto.

[Enlace para ver el resultado terminado]
"La aventura de Tori" episodio 1: transformación en estrella de K-POP (coreano)
https://www.youtube.com/watch?v=m4U-pQPXQc8&t=15s

"La aventura de Tori" episodio 1: transformación en estrella de K-POP (versión en inglés)
https://www.youtube.com/watch?v=CT3KHU7BvIs

"La aventura de Tori" episodio 2: transformación en superhéroe (coreano)
https://www.youtube.com/watch?v=U4n_W22zWaY&t=7s

"La aventura de Tori" episodio 3: transformación en Santa Claus (coreano / versión de modelado 3D)
https://www.youtube.com/watch?v=wl2RWAqOXtY

Considero que se logró automatizar sin supervisión más del 90% del proceso.
Comparto esta publicación con la idea de mostrar los distintos campos de aplicación que descubrí a través de este experimento y compartir la información.

Si quieren más información, únanse a la comunidad.
[ Enlace para participar en la comunidad (chat abierto de KakaoTalk) ]
https://open.kakao.com/o/gE6hK9Vf

Experimento para automatizar casi por completo con IA la creación de historias y videos a partir de GPTs

1 comentarios

Experimento para automatizar casi por completo con IA la creación de historias y videos a partir de GPTs

Lecturas relacionadas

1 comentarios