- Genie 2 es un modelo fundacional del mundo que genera diversos entornos 3D que pueden ser manipulados por humanos o agentes de IA mediante teclado y mouse
- Los juegos cumplen un papel importante en la investigación en IA, y Genie 2 permite entrenar y evaluar agentes en nuevos mundos con un currículo infinito
- Funciones
- Prototipado rápido: Genie 2 permite prototipar rápidamente diversas experiencias interactivas, lo que permite a los investigadores experimentar con nuevos entornos.
- Despliegue de agentes: con Genie 2 se pueden generar rápidamente entornos ricos y diversos para agentes de IA.
- Arquitectura del modelo: entrenado con grandes conjuntos de datos de video, Genie 2 puede modelar diversas interacciones entre objetos, animaciones complejas de personajes, física y más.
- Desarrollo responsable: Genie 2 muestra el potencial de los modelos fundacionales del mundo para generar diversos entornos 3D y acelerar la investigación con agentes.
- Capacidades emergentes
- Genie 2 puede generar diversos mundos 3D y modelar interacciones entre objetos, animaciones complejas de personajes, física y más.
- Los usuarios pueden describir un mundo con texto, elegir una representación visual de esa idea e interactuar con el mundo recién generado.
- Control de acciones: Genie 2 identifica correctamente a los personajes y los mueve de acuerdo con la entrada del teclado.
- Generación de experiencias contrafactuales: puede generar diversas trayectorias a partir del mismo fotograma inicial para simular experiencias contrafactuales destinadas al entrenamiento de agentes.
- Memoria de largo plazo: Genie 2 puede recordar partes del mundo que quedaron fuera del campo de visión y renderizarlas con precisión cuando vuelven a ser observables.
- Entornos diversos: Genie 2 puede generar distintas perspectivas, como primera persona, proyección isométrica y videos de conducción en tercera persona.
- Estructura 3D: puede generar escenas visuales 3D complejas.
- Interacción con objetos: puede modelar diversas interacciones con objetos, como reventar globos, abrir puertas o disparar explosivos.
- Animación de personajes: puede animar personajes realizando diversas actividades.
- NPC: puede modelar interacciones complejas con otros agentes.
- Física: puede modelar efectos de agua, humo, gravedad, iluminación y más.
- Juego a partir de imágenes reales: mediante prompts basados en imágenes reales, puede modelar agua fluyendo entre la hierba o hierba moviéndose por el viento.
- Prototipado rápido de diversas experiencias interactivas
- Genie 2 ayuda a experimentar e implementar rápidamente nuevos entornos, así como a entrenar y probar agentes de IA incorporada
- Ejemplo: usar imágenes generadas con Imagen 3 para simular distintos entornos donde se controlan aviones de papel, dragones, halcones y paracaídas
- Gracias a la capacidad de generalización fuera de distribución de Genie 2, es posible convertir arte conceptual e ilustraciones en entornos interactivos completos
- El prototipado rápido permite impulsar el proceso creativo y acelerar el diseño de entornos
- Generación de entornos de evaluación con Genie 2
- Genie 2 puede generar rápidamente entornos ricos y diversos para agentes de IA
- Permite probar agentes creando nuevas tareas de evaluación que no encontraron durante el entrenamiento
- El agente SIMA, desarrollado por DeepMind en colaboración con desarrolladores de videojuegos, realiza tareas en mundos de juego 3D a partir de instrucciones en lenguaje natural
- Genie 2 genera un entorno 3D a partir de un solo prompt de imagen, y el agente SIMA interactúa mediante entradas de teclado y mouse
- Aunque se trata de una investigación en etapa temprana, se espera que Genie 2 contribuya a resolver el problema del entrenamiento seguro de agentes incorporados al ofrecer diversidad y generalidad en los entornos de entrenamiento
- El entrenamiento generalizado de agentes de IA sienta las bases para el avance hacia la AGI (inteligencia artificial general)
- Modelo mundial de difusión
- Genie 2 es un modelo de difusión latente entrenado sobre grandes conjuntos de datos de video
- Los fotogramas se transforman al espacio latente mediante un autoencoder y luego se pasan a un modelo dinámico basado en transformer
- Durante el entrenamiento se aplica una máscara causal similar a la utilizada en los modelos de lenguaje
- Inferencia autorregresiva
- Durante la inferencia, Genie 2 muestrea de manera autorregresiva los fotogramas latentes pasados y los datos de acciones cuadro por cuadro
- Utiliza la técnica Classifier-Free Guidance para mejorar la capacidad de control de las acciones
- Genie 2 genera de manera eficiente entornos 3D de alta resolución mientras mantiene el control sobre las acciones
- Al combinar modelos de difusión con un enfoque autorregresivo, ofrece una tecnología de nueva generación para entornos virtuales inmersivos
- Desarrollo tecnológico responsable
- Genie 2 muestra el potencial de los modelos fundacionales del mundo para generar diversos entornos 3D y acelerar la investigación con agentes.
1 comentarios
Comentarios de Hacker News
Da curiosidad el tamaño de este modelo, y se echan de menos más detalles técnicos. Se señala que el enfoque de Google sigue siendo cerrado. Aun así, sorprende la posibilidad de explorar mundos a partir de fotos y descripciones de texto.
Resulta interesante que siga aumentando la presión en torno a la generación de video y de mundos. Se expresa interés por juegos de generación infinita de historias y se espera una era dorada del storytelling interactivo en el futuro.
Se señala que esta tecnología podría no ser útil para el desarrollo de videojuegos. En los juegos, la interacción es importante y los diseñadores deben tener un control profundo. Se considera que la parte de generación de mundos es la más útil.
Se enfatiza que esta tecnología traerá grandes avances para la AGI y la robótica. Se ve como un punto de partida para añadir a las máquinas funciones similares a la forma en que opera el cerebro humano.
Se explica que el verdadero objetivo de la investigación es desarrollar un modelo que supere la comprensión humana del mundo 3D. Esto contribuirá a los avances en robótica y vehículos autónomos.
Se expresa decepción porque Genie 2 ignore los detalles del arte conceptual. Se critica que las hermosas criaturas alienígenas originales sean ignoradas.
Se explica que la IA generativa ofrece flexibilidad, pero requiere mucho cómputo. Se expresa curiosidad sobre el papel de la programación tradicional y de la IA generativa.
Se pone en duda el valor real de esta tecnología. Se señala que el alto costo computacional y el comportamiento irregular son problemas.
Como el desplazamiento no funcionaba en MS Edge, se usó Firefox, y se menciona que la calidad visual del video no es buena. Se cuestiona por qué los investigadores de IA intentan reemplazar sistemas existentes que ya funcionan bien.