- WorldGen de Meta es un sistema de IA generativa de extremo a extremo que crea automáticamente mundos 3D explorables a partir de un solo prompt de texto
- Combina razonamiento procedural, generación 3D basada en difusión y descomposición de escenas con reconocimiento de objetos para construir entornos geométricamente coherentes y visualmente ricos
- El proceso de generación consta de cuatro etapas: planificación (Planning), reconstrucción (Reconstruction), descomposición (Decomposition) y refinamiento (Refinement)
- Los resultados son compatibles con motores de juego estándar como Unity y Unreal, y pueden usarse sin un proceso de conversión adicional
- Tiene el potencial de hacer posible y más eficiente para cualquiera la creación de contenido 3D complejo y costoso
Descripción general de WorldGen
- WorldGen puede generar en pocos minutos mundos 3D interactivos usando solo entradas de texto como “cartoon medieval village” o “sci-fi base station on Mars”
- Los mundos generados mantienen consistencia de estilo y temática, y están conectados en una estructura por la que los personajes pueden desplazarse libremente
- Basado en los avances de la IA generativa, puede construir entornos 3D completos a partir de un único prompt de texto o imagen
Estructura técnica y etapas de generación
- WorldGen comienza con una etapa de planificación que incluye generación procedural de blockout, extracción de Navmesh y generación de imágenes de referencia
- Después sigue una etapa de reconstrucción en la que realiza conversión de imagen a 3D, generación de escenas basada en Navmesh y creación de texturas básicas
- Utiliza AutoPartGen para la descomposición de escenas y curación de datos, separando los elementos detallados
- Por último, ejecuta una etapa de refinamiento mediante mejora de imagen, refinamiento de malla y modelos de texturizado
Diferencias frente a los métodos existentes
- Los sistemas existentes generan principalmente en torno a un único punto de vista (viewpoint), por lo que la calidad se degrada rápidamente fuera de la zona central
- WorldGen genera una escena completamente texturizada de 50×50 metros y mantiene la consistencia de estilo y geometría
- Se está investigando con el objetivo de alcanzar mundos de mayor escala en el futuro
Compatibilidad y posibilidades de uso
- Actualmente sigue en fase de investigación y no ha sido publicado para desarrolladores, pero el contenido generado puede usarse directamente en Unity y Unreal
- No requiere una conversión adicional del pipeline de renderizado
Limitaciones y dirección futura
- El modelo actual todavía tiene margen de mejora en términos de tamaño espacial y latencia de generación
- Las futuras versiones apuntan a generar espacios más grandes y mejorar la velocidad
Importancia industrial
- Reduce la complejidad y la carga de costos de la creación de contenido 3D, y plantea la posibilidad de que incluso personas no especialistas puedan construir mundos virtuales
- Está alineado con la visión que Meta presentó en Connect de un “futuro en el que cualquiera pueda crear mundos virtuales sin escribir una sola línea de código”
Agradecimientos
- El proyecto fue llevado a cabo por el equipo 3D GenAI de Reality Labs
- Principales contribuidores: Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn y otros (el símbolo † indica a los líderes del proyecto)
1 comentarios
Opiniones en Hacker News
Es una demo interesante, pero no se puede entrar a los edificios, el tamaño de los edificios y la distribución del pueblo son casi siempre iguales, y hay muchas inconsistencias visuales
Al final, parece poco más que poner cajas parecidas sobre una cuadrícula y caminar entre ellas
Entiendo que el progreso ocurre de forma gradual, pero comparado con otras demos de generación de mundos, esto se ve como un paso demasiado pequeño
Todos los edificios están colocados sobre una cuadrícula a intervalos regulares, y hasta parece haber límite de altura
Los juegos de mundo abierto realistas (GTA, Cyberpunk, etc.) incluyen deliberadamente “congestión diseñada” como callejones sin salida o puertas cerradas
Si todos los caminos llevan a algo interesante, la exploración pierde gracia
Si usa activos explícitos, tal vez sea más adecuada para desarrollo de juegos
Meta ha publicado muchos de los papers clave en este campo y además está Hyperscape, así que puede verse como un intento experimental en otra dirección
Me pregunto cuándo llegará el día en que los usuarios comunes también puedan probar directamente este tipo de motores de worldgen
Dan ganas de preguntarse por qué Google, Meta y Tencent siguen mostrando demos pero nunca liberan nada de verdad
Esto parece más una pipeline de ingeniería que combina tecnologías GenAI existentes
El resultado tampoco está a nivel SOTA, y más que un avance, parece un enfoque sin salida
La verdadera innovación sería generar directamente mallas con texturas mediante un modelo entrenado end-to-end, y el hecho de que no lo hayan logrado podría significar que todavía falta tecnología clave
Aun así, tal vez sirva para bootstrappear datasets de entrenamiento para modelos futuros
Esto se parece más a 3DAssetGen que a un “modelo del mundo”
No genera un mundo real, solo combina activos
Un mundo hecho a mano es mucho mejor, e incluso resulta menos atractivo que un juego hecho con RPG Maker
Aun así, tiene valor como primer intento, y espero que la IA pueda bajar la barrera para crear mundos de metaverso
Más aún si pensamos en el tiempo y costo enormes que implica crear aunque sea una pequeña isla al estilo GTA
Mejor comprar modelos de edificios en una asset store de 5 dólares
Cuesta creer que tenga sentido gastar decenas de miles de millones en centros de datos y dañar el medioambiente para hacer algo así
También me pregunto si hoy en día los artistas 3D todavía tienen ganas de distribuir activos gratis
La atmósfera del primer video me recordó a Warcraft 3 y DotA
Hubo una época en la que un solo mapa simple cambió por completo los juegos online y los eSports
Ahora se pueden crear mundos bajo demanda de mucha mayor calidad, pero ese mapa simple de entonces se siente incluso más grandioso
Al final, lo único que queremos es un SimCity mejor, así que no entiendo por qué hacen falta tantos modelos de generación de mundos y tantos centros de datos
Es irónico gastar enormes cantidades de energía y agua para crear pueblos falsos
Yo mismo evito comprar una consola para no engancharme con juegos como Red Dead
Me pregunto a quién beneficia realmente esta tecnología
Hice clic en el enlace y me salió un error 404, así que busqué y vi que en mayo ya existía un proyecto Worldgen con el mismo nombre
Ese parece representar escenas 3D realistas mucho mejor
En cuanto mueves un poco la cámara, se rompe de inmediato
El paper en sí estaba bastante bien
Tiene detalles interesantes sobre cómo manejan las mallas individuales
Enlace al paper
Como usaban varias veces la palabra “interactivo”, esperaba interacción real como abrir puertas o recoger objetos,
pero en realidad solo querían decir que se puede recorrer en primera persona
Con esa definición, cualquier modelo 3D sería interactivo
Generación panorámica 2D basada en difusión → conversión a nube de puntos → lifting a 3D → inpainting 2D → optimización con 3D Gaussian Splatting
Básicamente armaron un 3D uniendo imágenes de esa forma
A nivel conceptual, es un enfoque difícil de llamar modelo del mundo, y da pena lo ambiguo del término