1 puntos por GN⁺ 2024-10-05 | 1 comentarios | Compartir por WhatsApp
  • Meta Movie Gen es una investigación sobre un modelo de medios con IA que reúne en un solo lugar la generación de video y sonido, la edición de videos existentes y la conversión de imágenes personales en videos usando solo una entrada de texto simple
  • La generación de video admite resultados largos de alta calidad y distintos formatos de pantalla, una función que Meta presenta como la primera de su tipo en la industria
  • En videos existentes, se pueden aplicar cambios de estilo, transiciones y ediciones precisas mediante texto, permitiendo transformaciones como convertir una linterna en burbujas de jabón que flotan en el aire
  • Al ingresar una foto junto con texto, se crea un video personalizado que mantiene la identidad y los movimientos de la persona, con ejemplos como escenas de laboratorio, selfies, wéstern y DJ
  • También puede generar y extender efectos de sonido, música de fondo y hasta una banda sonora completa, llevando el flujo de creación de video desde la generación visual hasta la composición de audio

Tareas que aborda Movie Gen

  • Meta Movie Gen es un modelo fundacional de medios con IA presentado como el resultado más reciente de investigación de Meta
  • Maneja varias tareas de producción dentro de un único flujo de entrada de texto
    • Generación de videos personalizados
    • Generación de sonido
    • Edición de videos existentes
    • Conversión de imágenes personales en videos únicos
  • Meta presenta Movie Gen como un nuevo estándar para el contenido inmersivo con IA

Generación de video basada en texto

  • Movie Gen genera videos largos de alta calidad en distintos formatos de pantalla a partir de entradas de texto
  • Meta afirma que esta función es la primera de su tipo en la industria
  • Los prompts pueden especificar escena, sujeto, acción, fondo y condiciones de iluminación en conjunto
    • Una escena de un perezoso con lentes de sol rosas recostado sobre un flotador de dona y sosteniendo una bebida tropical
    • Una escena de un hombre en la playa, sosteniendo herramientas con fuego en ambas manos y formando movimientos circulares
    • Un koala surfeando mientras sostiene una tabla de surf amarilla
    • Un fantasma con sábana blanca bailando frente a un espejo en un ático polvoriento
    • Un mono de cara roja jugando con un pequeño velero en unas aguas termales

Edición de videos existentes con texto

  • Movie Gen admite edición precisa para modificar videos existentes mediante entradas de texto
  • El alcance incluye cambios de estilo, transiciones y ediciones detalladas
  • En un ejemplo se usa una transformación que convierte una linterna en burbujas de jabón que flotan en el aire

Videos personalizados a partir de imágenes personales

  • Cuando un usuario sube su propia foto e ingresa un texto simple, Movie Gen genera un video personalizado
  • El resultado se construye de manera que preserve la identidad y los movimientos de la persona
  • Las escenas de ejemplo incluyen varios entornos y acciones
    • Un hombre haciendo experimentos en un laboratorio con papel tapiz de arcoíris
    • Una mujer pintando en un lienzo sobre un caballete en una habitación con paneles de madera
    • Un hombre y un cachorro beagle tomándose una selfie en el patio trasero
    • Un hombre con sombrero de ala ancha y abrigo café sosteniendo una taza de té en el desierto
    • Una vaquera montando un caballo blanco en un antiguo pueblo del oeste
    • Una DJ mujer y un guepardo tocando discos en una azotea de LA

Generación de sonido adaptada al video

  • Movie Gen puede crear o extender efectos de sonido, música de fondo y una banda sonora completa mediante entradas de texto
  • El sonido generado está diseñado para reflejar el tono, el ritmo y el estilo del video
  • Las entradas de ejemplo especifican sonidos concretos junto con la atmósfera musical
    • Una escena en la que llueve intensamente sobre un acantilado y una persona, con música de fondo reproduciéndose
    • Sonidos de hojas que crujen y ramas que se rompen, con música orquestal
    • Una escena en la que el motor de un ATV ruge y acelera acompañado de música de guitarra
    • El sonido de las ruedas de una patineta girando y el impacto al aterrizar sobre el concreto
    • Una pieza orquestal que inspira asombro
    • Tras un silbido, una explosión aguda y un fuerte sonido de crackling

Colaboración con creadores y la industria del entretenimiento

  • Meta colaboró con la productora galardonada Blumhouse a través del Creative Industry Feedback Program
  • Blumhouse seleccionó a cineastas para crear videos antes del debut público de Movie Gen
  • A los creadores se les pidió usar el conjunto de herramientas de medios con IA para producir resultados que consideraran interesantes o útiles
  • El video del director Aneesh Chaganty se titula "i h8 ai"

Ejemplos públicos y materiales de referencia

  • Meta afirma que los creadores están transformando la narrativa con Movie Gen
  • Los ejemplos de Instagram incluyen las siguientes cuentas y prompts
    • @paigepiskin: una mano sosteniendo una pequeña tarántula peluda con cara de gato, edición que convierte a un perro en un bebé dragón gris
    • @ka5sh: un alienígena caricaturesco verde con zapatos de payaso rosas, edición que convierte a una persona en un alienígena verde con un bucket hat rojo
    • @girls: una niña caminando por un sendero de árboles otoñales, dos mujeres tomando café frente a una pared con decoraciones de Halloween
    • @memezar: una pelea de boxeo entre un hipopótamo bebé y un gorila musculoso
    • @ravivora: agregar niebla densa en primer plano, una mujer subiendo a la superficie rodeada de medusas
  • Como material adicional, se ofrece el artículo de investigación de Movie Gen, y Meta afirma que estableció un nuevo benchmark de la industria en generación de medios con IA
  • También se enlazan publicaciones relacionadas del blog sobre colaboración con la industria del entretenimiento y creadores y la era de la creación de contenido con IA

1 comentarios

 
GN⁺ 2024-10-05
Opiniones de Hacker News
  • Lo más interesante es la función de editar video con texto. Parece algo que podría usarse de inmediato en cine indie que no tiene presupuesto para CGI
    Sería posible hacer algo como grabar primero en una butaca de lounge y luego cambiarlo para que parezca una sala de cine

    • Totalmente de acuerdo. El reemplazo de fondo para poner a un hombre con un fondo de estadio ya tiene un nivel que podría usarse tal cual en una toma de una película o serie de TV, y el fondo también se ve lo bastante convincente como para que a nadie le parezca raro
      Si se usa bien, va a subir la calidad de las películas indie o los cortos, y el único límite será la creatividad
    • Más bien me pregunto por qué usar actores. Los actores cuestan dinero y es difícil coordinar horarios. Mejor hacer todo con IA
      Después de todo, el modelo seguro fue entrenado con actores mejores que cualquier reparto indie
  • Esto no es una película sino un clip. La industria de fotos y videos de stock sin duda debe estar preocupada, y hay 100% de probabilidad de que estos modelos hayan sido entrenados con sus obras, así que van a demandar
    Si esta tecnología algún día hace películas, probablemente será, como lo que generan los modelos de texto, imagen y música, un promedio de todo lo que se ha hecho hasta ahora, con resultados tremendamente mediocres

    • Me imagino dar instrucciones en una herramienta de producción cinematográfica como: “pon al modelo A en la escena 32f, agrega una multitud y luego haz zoom sobre A. Debe tener una expresión de mucha preocupación”
      Después podrías seguir ajustando la escena, guardarla y pasar a la siguiente. Si la IA puede continuar la animación, no parece haber razón para que, cuando avance más, no pueda reproducir fielmente un modelo dado
    • Al final, ambas industrias van a terminar como todas las demás: adaptarse o morir. Los grandes ganadores probablemente serán quienes usen creativamente esta nueva herramienta sin dejarle todo a la IA
    • Ya se han hecho varios festivales de cortos con IA y videos musicales con IA. Eso sí, la calidad es muy irregular, y las mejores obras al final eran las que tenían fundamentos sólidos de producción, como buena edición y una intención de dirección clara
      No sé si ya salió un largometraje o si hay alguno en producción
    • El problema es que estas empresas de video de stock tienen que enfrentarse a las compañías más ricas de la historia. Responder legalmente requiere muchísimo dinero y tiempo
      No me gusta decirlo, pero si la IA sigue creciendo como hasta ahora, es muy posible que las empresas tecnológicas terminen metiéndose en todo y volviéndose aún más poderosas
  • No entiendo por qué hay tantos sitios web que son básicamente HTML estático y aun así hacen que el teléfono se trabe
    Los videos se ven bien, pero si el celular se congela cada 2 segundos, no se puede disfrutar leer nada relacionado

    • También noto trabas raras en un Pixel 6a con Chromium. Como estoy en móvil no puedo revisar el código fuente, pero esto no puede ser solo HTML estático
      Cuando haces scroll, partes del texto desaparecen y vuelven a aparecer, y no es una animación basada en scroll sino algo casi aleatorio. Se siente como si algo estuviera bloqueando el render loop del navegador y no dejara que el dibujado real del texto se pusiera al día. Sería un bug ridículo en una página tan simple, pero si usaron React aquí, a estas alturas ya me creo cualquier cosa
    • Aquí no se traba tan fuerte, pero sí hay claramente cambios de diseño mientras cargan imágenes o elementos de video
    • Si desactivas JavaScript, de hecho queda bastante usable y rápido
    • Puede que las empresas que hacen estas cosas no tengan suficiente capacidad de desarrollo web
    • Me pregunto qué navegador será
  • Los humanos dependen demasiado de la entrada visual y del entretenimiento visual. Pero cada vez ese tipo de imágenes se siente más vacío, y todo parece contenido basura tipo comida rápida
    Que incluso un niño en preescolar pueda crear en segundos cualquier cosa que imagine no parece hacer que eso sea mejor ni que tenga un valor real. Tal vez justamente ahí esté el valor de esta tecnología. Podría llegar una era en la que ya ni haga falta imaginar historias de forma visual, como en el cine. A nadie le importará más

    • También son visuales tipo comida chatarra. No sé cómo describirlo mejor que diciendo que se ven como una mezcla de Fisher-Price con hongos alucinógenos suaves
    • Sí. Tampoco he entendido nunca el encanto de la fotografía. Es demasiado fácil, no hace falta pasarse horas dibujando para crear algo original, solo compras una cámara y aprietas un botón
      Y aun así la gente paga por eso; no lo entiendo
  • Llevo años diciendo que un tsunami de contenido generado se va a tragar las voces humanas reales en internet. Como resultado, internet podría volverse prácticamente inútil para cualquier cosa que no sea entretenimiento

    • Interesante, y ya en parte se siente así. Aquí y en otros foros pensaba que la mayoría eran humanos, pero ya no me da esa impresión
      Incluso en chats grupales veo que un amigo usa respuestas de IA, y los demás ni se dan cuenta y le responden en serio. Eso me da asco y me nace evitar el contenido basura hecho por IA. Ya no sé qué sigue ni adónde ir. No tengo idea de si los foros “humanos” van a ser empujados a rincones más profundos de internet, o si la gente va a terminar prefiriendo reunirse más en persona
    • Tal vez hasta sea algo bueno. Internet nunca llegó a cumplir su potencial como tejido conectivo de la humanidad. La mayor parte es solo marketing y spam
      Si internet muere y todos vuelven a comunidades más pequeñas, no me parece lo peor del mundo. Para empezar, ni siquiera evolucionamos para comunicarnos a escala planetaria
    • No veo por qué debería importarme
      ¿Has visto lo que dice la mayoría de los humanos? Si la IA dice cosas más inteligentes, yo estoy a favor
    • Estaría bien poder ir a comunidades de usuarios humanos verificados. Más pequeñas en alcance que las redes sociales
    • El internet de antes era como un escondite donde los raros podían ocultarse, divertirse y pasarla bien. Desde que se inventó el smartphone, o quizás desde antes, se arruinó como un “Eternal September”
      Últimamente hasta prefiero pasar el tiempo offline. ¿Quedará todavía algún otro refugio en internet sin anuncios, sin búsqueda de atención y sin contenido basura de IA?
  • No encuentro una mejor forma de describirlo para todos los videos, pero tienen ese brillo característico de la IA generativa que se reconoce al instante. Otra parte que delata mucho son los cambios sutiles que aparecen en los bordes, que generan artefactos borrosos

    • Aun así, no creo que eso sea suficiente. Estos videos son de alta calidad. Si se suben a redes sociales, la compresión hace desaparecer la mayoría de los defectos
      Ya se ha visto que, cuando la gente no espera contenido hecho con IA, le cuesta mucho más notarlo. Si me hubieran agarrado desprevenido, creo que habría creído que la mayoría de estos videos eran 100% reales
    • Ese brillo se ve como el filtro que usa la gente que copia videos de TV o cine y los sube a lugares como Facebook Reels
      Hay muchos reels con ese patrón: le agregan suficiente ruido a contenido robado para esquivar los filtros de detección. En los comentarios ponen enlaces a sitios fraudulentos y lo etiquetan como “la página de IMDB de este contenido”
    • El movimiento se veía raro. La niña pequeña en la playa se mueve como una adulta, el pintor parece literalmente una marioneta y todo da la sensación de estar en cámara lenta
    • Al menos todos los humanos en este video parecen tener el número correcto de dedos, así que es un avance. Moo Deng de por sí parece tener un brillo natural, así que no se le puede echar la culpa por eso
      Aun así, el problema en los bordes sigue siendo grande
    • Me pregunto cuánto han contribuido RLHF u otros ajustes del modelo basados en humanos a esta sobresaturación y contraste excesivo
      El consumidor promedio parece preferir esas características al comparar imágenes o videos, y las usa como una heurística para juzgar la calidad. Incluso hubo comparaciones entre modelos antiguos de texto a imagen y generaciones más recientes que sostenían que los modelos viejos, menos intervenidos, no estaban tan sesgados hacia salidas kitsch y exageradas como los modelos actuales
  • Puede que lo esté viendo de forma demasiado cerrada, pero ¿quién demonios quería esto y si alguien pensó en las consecuencias de una generación de basura con IA tan accesible?
    Ya es casi imposible encontrar contenido de calidad en internet si no sabes bien dónde buscar

    • Va a ponerse peor, y el valor de los agregadores y guardianes de acceso va a crecer muchísimo
    • La respuesta a “¿quién quería esto?” es preguntarte si nunca has oído el chiste de “porque se puede
    • Yo sí lo quería, y me alegra bastante que esto esté pasando. Si me recuesto, cierro los ojos y espero, se está abriendo una nueva era de la computación en la que las visiones que uno tiene en la cabeza se vuelven realidad sin necesidad de un equipo de producción de Hollywood
  • Mis dos hijos tienen una fuerte inclinación creativa, y me da miedo que por culpa de la IA ya no puedan ganarse la vida creando. Pero últimamente también he pensado otra cosa
    Llevamos décadas gastando miles de millones, quizá billones de dólares, en mejorar la tecnología del entretenimiento. Si la IA llega a poder crear cualquier entretenimiento imaginable, puede que empecemos a encontrarlo aburrido. En ese momento, quizá decidamos que la exploración espacial, expandir el conocimiento de la física y la química, y luchar contra las enfermedades son mucho más interesantes. Porque son reales. Desde esa misma perspectiva, el arte hecho por humanos también podría volverse más interesante precisamente porque es real

    • Cuando hablo con personas en la vida real, casi siempre volvemos a ese punto. A la mayoría le parecen curiosos los resultados de la IA, pero no le resultan particularmente interesantes a nivel artístico
      La gente entusiasmada con la IA aparece sobre todo en línea y, a falta de una mejor forma de decirlo, parece estar muy metida en internet y no tener la técnica, el conocimiento ni la capacidad para crear arte por sí misma. En el momento en que alguien dice “generado por IA”, para mí el interés artístico desaparece de inmediato. No es lo mismo que usar Photoshop o herramientas de arte digital. Presentar como virtud la mínima intervención humana, en el momento en que eso se ofrece como arte, para mí ya invalida la propuesta desde el arranque. Veremos si se cumple esa visión utópica de esta tecnología, pero he visto demasiadas veces cómo el optimismo desbordado por una nueva tecnología termina cuajando en basura insípida, centrada en la publicidad y con mentalidad de MBA, así que no soy muy optimista
    • También hay otro ángulo
      Sigo en Twitter a muchas comunidades nuevas de generación con IA, y en esas comunidades hay mucha gente de industrias creativas. Alguien que trabajaba en publicidad compartió hace poco la historia de una filmación para una marca famosa. Se montaron durante 3 días un soundstage, actores, sonido, maquillaje, iluminación y demás, y unas 25 personas trabajaron esos 3 días. Pero si sumas la preproducción y la posproducción, detrás hubo cerca de 3 meses de trabajo. Piensa en edición, corrección de color, edición de sonido, música, etc. Puede que tus hijos creativos terminen viviendo en un mundo donde puedan lograr resultados parecidos por su cuenta. Con equipos pequeños, donde una persona lleve personajes, otra el audio y otra el guion. Sin necesidad de equipo rentado por decenas de miles de dólares ni de 25 especialistas, podrían materializar las ideas que tienen en la cabeza con perseverancia y herramientas de generación con IA. De verdad creo que estas nuevas herramientas van a abrir más potencial del que hoy imaginamos
    • Tal vez el factor limitante para poder hacer arte no sea la técnica necesaria para hacer cine, pintar o tocar un instrumento, sino la creatividad
    • La pintura no reemplazó al carbón, la fotografía no reemplazó a la pintura, el arte digital no reemplazó a los medios físicos y la generación aleatoria de niveles en videojuegos no reemplazó a la arquitectura
      Las obras generadas por IA encontrarán su lugar junto a las hechas por humanos. De hecho, podrían incluso mejorar el mercado del cine de autor y de la gran actuación al resaltar la diferencia que marca un poco de talento humano. Lo que está en riesgo no es el arte, sino el trabajo rutinario. Lo que cambia es que la escala de las producciones mediocres hechas por humanos, que empleaban a millones, pasará a producciones mediocres hechas con IA que emplearán a unas decenas
    • Incluso sin IA, ganarse la vida con la creatividad nunca ha funcionado muy bien para la mayoría. La expresión creativa existe por sí misma, y quienes logran vivir de eso son excepciones afortunadas
  • Esto es realmente impresionante. La consistencia espacial y temporal es casi imposible de creer

  • El resultado esperable es este. Todos los guiones de Hollywood ahora se van a presentar junto con una película de previsualización, aparecerán convertidores de cómics a animación, y se harán muchísimos más anuncios en línea para productos

    • La previsualización y los storyboards se van a beneficiar enormemente de esta tecnología. Con el tiempo, parece que también podrá usarse para B-roll o tomas de segunda unidad
      Después de eso, habrá que ver si esta tecnología se estanca o sigue avanzando
    • La idea de “películas” de baja calidad hechas con IA y guiones con blocking es interesante
      La conversión de cómics a animación ya existe. Los anuncios, sobre todo en redes sociales y en línea, también ya están ocurriendo