- El primer modelo de mundo de propósito general que genera entornos 3D interactivos en tiempo real solo con prompts de texto
- Puede mantener 24 fps, resolución 720p y consistencia durante varios minutos, con grandes mejoras en interactividad, realismo y persistencia frente a Genie 2
- Puede generar de forma natural y variada mundos virtuales sobre fenómenos físicos, ecosistemas, animación y contextos históricos y geográficos, entre otros temas
- Con la función Promptable world events, el usuario puede controlar en tiempo real eventos dinámicos como cambios de clima o la adición de objetos mediante texto
- Diseñado para investigación con agentes, puede integrarse con agentes SIMA y similares para probar cumplimiento de objetivos a largo plazo o secuencias complejas de acciones
Genie 3: una revolución en la simulación de mundos
El contexto de la evolución de los modelos de mundo
- DeepMind ha liderado la investigación en entornos de simulación para entrenamiento de agentes de IA, aprendizaje abierto y robótica
- Un modelo de mundo es un sistema de IA capaz de predecir y reproducir cambios del entorno y los resultados de las acciones de un agente, y se considera un paso intermedio importante hacia la AGI
- Tras Genie 1 y 2, Genie 3 es el primer modelo de mundo que ofrece al mismo tiempo interactividad en tiempo real y consistencia visual y física
Funciones principales de Genie 3
-
Modelado de fenómenos naturales y físicos
- Reproduce de forma natural fenómenos del mundo real como agua, luz y diversas interacciones del entorno solo con prompts
-
Ecosistemas complejos y animación
- Permite generar la dinámica de los ecosistemas, como el comportamiento animal o el crecimiento de las plantas, así como mundos animados basados en la imaginación
-
Recreación de contextos históricos y geográficos
- Puede construir en tiempo real entornos virtuales con espacios diversos que trascienden fronteras geográficas y temporales
-
Interacción y control en tiempo real
- Visualiza cambios inmediatos en el mundo a 24 fps y 720p según la entrada del usuario
- Recuerda ubicaciones y estados visitados previamente, manteniendo consistencia física y visual durante varios minutos
-
Promptable World Events
- Permite activar en tiempo real eventos de cambio del entorno, como variaciones del clima o la adición de objetos y personajes, mediante prompts de texto
- Además del control de exploración, ofrece amplias posibilidades de uso, como escenarios de “qué pasaría si…” o la creación de situaciones no cotidianas
-
Investigación y experimentación con agentes
- Agentes de IA especializados en entornos 3D, como SIMA, pueden perseguir objetivos complejos dentro del mundo de Genie 3 y poner a prueba su capacidad para ejecutar secuencias de largo plazo
- Los objetivos del agente no se comparten con Genie 3; los resultados se generan únicamente a partir de la secuencia de acciones y la simulación del mundo
Retos técnicos y logros
- En el proceso de generación autorregresiva por fotograma, se requiere una tecnología muy avanzada porque debe reflejar en tiempo real tanto la entrada del usuario como las secuencias pasadas
- A diferencia de NeRF, Gaussian Splatting y otras técnicas previas, Genie 3 se basa en una generación pura sin representación 3D explícita, lo que le permite construir entornos mucho más dinámicos y ricos
Limitaciones y desafíos
- Rango de acciones limitado: los cambios del entorno basados en prompts son variados, pero las acciones que pueden realizarse directamente aún son limitadas
- Interacción entre múltiples agentes: la simulación precisa de interacciones entre varios agentes sigue siendo un tema de investigación
- Límites en la reproducción de ubicaciones reales: no ofrece una precisión perfecta de espacios geográficos reales
- Limitaciones en el renderizado de texto: solo puede mostrar texto con claridad cuando se introduce de forma explícita
- Límite de tiempo de interacción: por ahora solo admite interacción continua durante unos pocos minutos
Responsabilidad y alcance de la publicación
- Las características de generación abierta y en tiempo real de Genie 3 implican nuevos retos de seguridad y ética, por lo que se trabaja en estrecha colaboración con el Responsible Development & Innovation Team
- En una primera etapa, se ofrecerá como vista previa de investigación solo a un grupo limitado de investigadores y creadores, con planes de ampliar gradualmente el acceso y definir medidas para responder a los riesgos a partir del feedback
Futuro y perspectivas de uso
- Genie 3 abre nuevas posibilidades en campos como educación, entrenamiento, aprendizaje de agentes de IA y validación de rendimiento
- Se espera que desempeñe un papel clave en la investigación de AGI (inteligencia artificial general) y que siga desarrollándose de forma segura en una dirección beneficiosa para la humanidad
Aún no hay comentarios.