5 puntos por GN⁺ 2024-12-05 | 1 comentarios | Compartir por WhatsApp
  • Genie 2 es un modelo fundacional del mundo que genera diversos entornos 3D que pueden ser manipulados por humanos o agentes de IA mediante teclado y mouse
  • Los juegos cumplen un papel importante en la investigación en IA, y Genie 2 permite entrenar y evaluar agentes en nuevos mundos con un currículo infinito
  • Funciones
    • Prototipado rápido: Genie 2 permite prototipar rápidamente diversas experiencias interactivas, lo que permite a los investigadores experimentar con nuevos entornos.
    • Despliegue de agentes: con Genie 2 se pueden generar rápidamente entornos ricos y diversos para agentes de IA.
    • Arquitectura del modelo: entrenado con grandes conjuntos de datos de video, Genie 2 puede modelar diversas interacciones entre objetos, animaciones complejas de personajes, física y más.
    • Desarrollo responsable: Genie 2 muestra el potencial de los modelos fundacionales del mundo para generar diversos entornos 3D y acelerar la investigación con agentes.
  • Capacidades emergentes
    • Genie 2 puede generar diversos mundos 3D y modelar interacciones entre objetos, animaciones complejas de personajes, física y más.
    • Los usuarios pueden describir un mundo con texto, elegir una representación visual de esa idea e interactuar con el mundo recién generado.
    • Control de acciones: Genie 2 identifica correctamente a los personajes y los mueve de acuerdo con la entrada del teclado.
    • Generación de experiencias contrafactuales: puede generar diversas trayectorias a partir del mismo fotograma inicial para simular experiencias contrafactuales destinadas al entrenamiento de agentes.
    • Memoria de largo plazo: Genie 2 puede recordar partes del mundo que quedaron fuera del campo de visión y renderizarlas con precisión cuando vuelven a ser observables.
    • Entornos diversos: Genie 2 puede generar distintas perspectivas, como primera persona, proyección isométrica y videos de conducción en tercera persona.
    • Estructura 3D: puede generar escenas visuales 3D complejas.
    • Interacción con objetos: puede modelar diversas interacciones con objetos, como reventar globos, abrir puertas o disparar explosivos.
    • Animación de personajes: puede animar personajes realizando diversas actividades.
    • NPC: puede modelar interacciones complejas con otros agentes.
    • Física: puede modelar efectos de agua, humo, gravedad, iluminación y más.
    • Juego a partir de imágenes reales: mediante prompts basados en imágenes reales, puede modelar agua fluyendo entre la hierba o hierba moviéndose por el viento.
  • Prototipado rápido de diversas experiencias interactivas
    • Genie 2 ayuda a experimentar e implementar rápidamente nuevos entornos, así como a entrenar y probar agentes de IA incorporada
      • Ejemplo: usar imágenes generadas con Imagen 3 para simular distintos entornos donde se controlan aviones de papel, dragones, halcones y paracaídas
    • Gracias a la capacidad de generalización fuera de distribución de Genie 2, es posible convertir arte conceptual e ilustraciones en entornos interactivos completos
      • El prototipado rápido permite impulsar el proceso creativo y acelerar el diseño de entornos
  • Generación de entornos de evaluación con Genie 2
    • Genie 2 puede generar rápidamente entornos ricos y diversos para agentes de IA
      • Permite probar agentes creando nuevas tareas de evaluación que no encontraron durante el entrenamiento
    • El agente SIMA, desarrollado por DeepMind en colaboración con desarrolladores de videojuegos, realiza tareas en mundos de juego 3D a partir de instrucciones en lenguaje natural
      • Genie 2 genera un entorno 3D a partir de un solo prompt de imagen, y el agente SIMA interactúa mediante entradas de teclado y mouse
    • Aunque se trata de una investigación en etapa temprana, se espera que Genie 2 contribuya a resolver el problema del entrenamiento seguro de agentes incorporados al ofrecer diversidad y generalidad en los entornos de entrenamiento
    • El entrenamiento generalizado de agentes de IA sienta las bases para el avance hacia la AGI (inteligencia artificial general)
  • Modelo mundial de difusión
    • Genie 2 es un modelo de difusión latente entrenado sobre grandes conjuntos de datos de video
    • Los fotogramas se transforman al espacio latente mediante un autoencoder y luego se pasan a un modelo dinámico basado en transformer
    • Durante el entrenamiento se aplica una máscara causal similar a la utilizada en los modelos de lenguaje
    • Inferencia autorregresiva
      • Durante la inferencia, Genie 2 muestrea de manera autorregresiva los fotogramas latentes pasados y los datos de acciones cuadro por cuadro
      • Utiliza la técnica Classifier-Free Guidance para mejorar la capacidad de control de las acciones
    • Genie 2 genera de manera eficiente entornos 3D de alta resolución mientras mantiene el control sobre las acciones
    • Al combinar modelos de difusión con un enfoque autorregresivo, ofrece una tecnología de nueva generación para entornos virtuales inmersivos
  • Desarrollo tecnológico responsable
    • Genie 2 muestra el potencial de los modelos fundacionales del mundo para generar diversos entornos 3D y acelerar la investigación con agentes.

1 comentarios

 
GN⁺ 2024-12-05
Comentarios de Hacker News
  • Da curiosidad el tamaño de este modelo, y se echan de menos más detalles técnicos. Se señala que el enfoque de Google sigue siendo cerrado. Aun así, sorprende la posibilidad de explorar mundos a partir de fotos y descripciones de texto.

  • Resulta interesante que siga aumentando la presión en torno a la generación de video y de mundos. Se expresa interés por juegos de generación infinita de historias y se espera una era dorada del storytelling interactivo en el futuro.

  • Se señala que esta tecnología podría no ser útil para el desarrollo de videojuegos. En los juegos, la interacción es importante y los diseñadores deben tener un control profundo. Se considera que la parte de generación de mundos es la más útil.

  • Se enfatiza que esta tecnología traerá grandes avances para la AGI y la robótica. Se ve como un punto de partida para añadir a las máquinas funciones similares a la forma en que opera el cerebro humano.

  • Se explica que el verdadero objetivo de la investigación es desarrollar un modelo que supere la comprensión humana del mundo 3D. Esto contribuirá a los avances en robótica y vehículos autónomos.

  • Se expresa decepción porque Genie 2 ignore los detalles del arte conceptual. Se critica que las hermosas criaturas alienígenas originales sean ignoradas.

  • Se explica que la IA generativa ofrece flexibilidad, pero requiere mucho cómputo. Se expresa curiosidad sobre el papel de la programación tradicional y de la IA generativa.

  • Se pone en duda el valor real de esta tecnología. Se señala que el alto costo computacional y el comportamiento irregular son problemas.

  • Como el desplazamiento no funcionaba en MS Edge, se usó Firefox, y se menciona que la calidad visual del video no es buena. Se cuestiona por qué los investigadores de IA intentan reemplazar sistemas existentes que ya funcionan bien.