WorldGen – generación de mundos 3D inmersivos a partir de texto

(meta.com)

3 puntos por GN⁺ 2025-11-24 | 1 comentarios | Compartir por WhatsApp

WorldGen de Meta es un sistema de IA generativa de extremo a extremo que crea automáticamente mundos 3D explorables a partir de un solo prompt de texto
Combina razonamiento procedural, generación 3D basada en difusión y descomposición de escenas con reconocimiento de objetos para construir entornos geométricamente coherentes y visualmente ricos
El proceso de generación consta de cuatro etapas: planificación (Planning), reconstrucción (Reconstruction), descomposición (Decomposition) y refinamiento (Refinement)
Los resultados son compatibles con motores de juego estándar como Unity y Unreal, y pueden usarse sin un proceso de conversión adicional
Tiene el potencial de hacer posible y más eficiente para cualquiera la creación de contenido 3D complejo y costoso

Descripción general de WorldGen

WorldGen puede generar en pocos minutos mundos 3D interactivos usando solo entradas de texto como “cartoon medieval village” o “sci-fi base station on Mars”
- Los mundos generados mantienen consistencia de estilo y temática, y están conectados en una estructura por la que los personajes pueden desplazarse libremente
Basado en los avances de la IA generativa, puede construir entornos 3D completos a partir de un único prompt de texto o imagen

Estructura técnica y etapas de generación

WorldGen comienza con una etapa de planificación que incluye generación procedural de blockout, extracción de Navmesh y generación de imágenes de referencia
Después sigue una etapa de reconstrucción en la que realiza conversión de imagen a 3D, generación de escenas basada en Navmesh y creación de texturas básicas
Utiliza AutoPartGen para la descomposición de escenas y curación de datos, separando los elementos detallados
Por último, ejecuta una etapa de refinamiento mediante mejora de imagen, refinamiento de malla y modelos de texturizado

Diferencias frente a los métodos existentes

Los sistemas existentes generan principalmente en torno a un único punto de vista (viewpoint), por lo que la calidad se degrada rápidamente fuera de la zona central
WorldGen genera una escena completamente texturizada de 50×50 metros y mantiene la consistencia de estilo y geometría
Se está investigando con el objetivo de alcanzar mundos de mayor escala en el futuro

Compatibilidad y posibilidades de uso

Actualmente sigue en fase de investigación y no ha sido publicado para desarrolladores, pero el contenido generado puede usarse directamente en Unity y Unreal
No requiere una conversión adicional del pipeline de renderizado

Limitaciones y dirección futura

El modelo actual todavía tiene margen de mejora en términos de tamaño espacial y latencia de generación
Las futuras versiones apuntan a generar espacios más grandes y mejorar la velocidad

Importancia industrial

Reduce la complejidad y la carga de costos de la creación de contenido 3D, y plantea la posibilidad de que incluso personas no especialistas puedan construir mundos virtuales
Está alineado con la visión que Meta presentó en Connect de un “futuro en el que cualquiera pueda crear mundos virtuales sin escribir una sola línea de código”

Agradecimientos

El proyecto fue llevado a cabo por el equipo 3D GenAI de Reality Labs
Principales contribuidores: Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn y otros (el símbolo † indica a los líderes del proyecto)

1 comentarios

GN⁺ 2025-11-24

Opiniones en Hacker News

Es una demo interesante, pero no se puede entrar a los edificios, el tamaño de los edificios y la distribución del pueblo son casi siempre iguales, y hay muchas inconsistencias visuales
Al final, parece poco más que poner cajas parecidas sobre una cuadrícula y caminar entre ellas
Entiendo que el progreso ocurre de forma gradual, pero comparado con otras demos de generación de mundos, esto se ve como un paso demasiado pequeño
- Los pueblos hechos por IA se ven como si hubieran pasado por regulaciones urbanísticas estrictas
  Todos los edificios están colocados sobre una cuadrícula a intervalos regulares, y hasta parece haber límite de altura
  Los juegos de mundo abierto realistas (GTA, Cyberpunk, etc.) incluyen deliberadamente “congestión diseñada” como callejones sin salida o puertas cerradas
  Si todos los caminos llevan a algo interesante, la exploración pierde gracia
- Esta demo podría ser más útil en una pipeline de producción de contenido que otros ejemplos como World Labs
  Si usa activos explícitos, tal vez sea más adecuada para desarrollo de juegos
  Meta ha publicado muchos de los papers clave en este campo y además está Hyperscape, así que puede verse como un intento experimental en otra dirección
- No veo un enlace a una demo real que funcione
- En la mayoría de los juegos tampoco puedes entrar a los edificios. Incluso en Cyberpunk, solo se abren muy pocas puertas
  Me pregunto cuándo llegará el día en que los usuarios comunes también puedan probar directamente este tipo de motores de worldgen
  Dan ganas de preguntarse por qué Google, Meta y Tencent siguen mostrando demos pero nunca liberan nada de verdad
Esto parece más una pipeline de ingeniería que combina tecnologías GenAI existentes
El resultado tampoco está a nivel SOTA, y más que un avance, parece un enfoque sin salida
La verdadera innovación sería generar directamente mallas con texturas mediante un modelo entrenado end-to-end, y el hecho de que no lo hayan logrado podría significar que todavía falta tecnología clave
Aun así, tal vez sirva para bootstrappear datasets de entrenamiento para modelos futuros
- Me da curiosidad cuál es hoy el estado del arte (SOTA) en este campo
- Seguro los desarrolladores hicieron lo mejor posible para cumplir con lo que pidió la dirección, pero esto parece un ejemplo de los límites de innovación en las grandes empresas
Esto se parece más a 3DAssetGen que a un “modelo del mundo”
No genera un mundo real, solo combina activos
Un mundo hecho a mano es mucho mejor, e incluso resulta menos atractivo que un juego hecho con RPG Maker
- En realidad parece generar solo una pequeña zona cuadrada. Un mundo en cuadrícula así probablemente sería incómodo para los jugadores
  Aun así, tiene valor como primer intento, y espero que la IA pueda bajar la barrera para crear mundos de metaverso
  Más aún si pensamos en el tiempo y costo enormes que implica crear aunque sea una pequeña isla al estilo GTA
- En ninguna parte de la página aparece la expresión “modelo del mundo”
Mejor comprar modelos de edificios en una asset store de 5 dólares
Cuesta creer que tenga sentido gastar decenas de miles de millones en centros de datos y dañar el medioambiente para hacer algo así
- Creo que sería mejor usar ese dinero para apoyar a artistas low-poly como Quaternius
  También me pregunto si hoy en día los artistas 3D todavía tienen ganas de distribuir activos gratis
La atmósfera del primer video me recordó a Warcraft 3 y DotA
Hubo una época en la que un solo mapa simple cambió por completo los juegos online y los eSports
Ahora se pueden crear mundos bajo demanda de mucha mayor calidad, pero ese mapa simple de entonces se siente incluso más grandioso
Al final, lo único que queremos es un SimCity mejor, así que no entiendo por qué hacen falta tantos modelos de generación de mundos y tantos centros de datos
Es irónico gastar enormes cantidades de energía y agua para crear pueblos falsos
Yo mismo evito comprar una consola para no engancharme con juegos como Red Dead
Me pregunto a quién beneficia realmente esta tecnología
Hice clic en el enlace y me salió un error 404, así que busqué y vi que en mayo ya existía un proyecto Worldgen con el mismo nombre
Ese parece representar escenas 3D realistas mucho mejor
- Pero en realidad eso se acerca más a un truco para hacer que una imagen 2D parezca 3D
  En cuanto mueves un poco la cámara, se rompe de inmediato
El paper en sí estaba bastante bien
Tiene detalles interesantes sobre cómo manejan las mallas individuales
Enlace al paper
Como usaban varias veces la palabra “interactivo”, esperaba interacción real como abrir puertas o recoger objetos,
pero en realidad solo querían decir que se puede recorrer en primera persona
Con esa definición, cualquier modelo 3D sería interactivo
Generación panorámica 2D basada en difusión → conversión a nube de puntos → lifting a 3D → inpainting 2D → optimización con 3D Gaussian Splatting
Básicamente armaron un 3D uniendo imágenes de esa forma
A nivel conceptual, es un enfoque difícil de llamar modelo del mundo, y da pena lo ambiguo del término

WorldGen – generación de mundos 3D inmersivos a partir de texto

Descripción general de WorldGen

Estructura técnica y etapas de generación

Diferencias frente a los métodos existentes

Compatibilidad y posibilidades de uso

Limitaciones y dirección futura

Importancia industrial

Agradecimientos

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News