3 puntos por GN⁺ 2025-11-24 | 1 comentarios | Compartir por WhatsApp
  • WorldGen de Meta es un sistema de IA generativa de extremo a extremo que crea automáticamente mundos 3D explorables a partir de un solo prompt de texto
  • Combina razonamiento procedural, generación 3D basada en difusión y descomposición de escenas con reconocimiento de objetos para construir entornos geométricamente coherentes y visualmente ricos
  • El proceso de generación consta de cuatro etapas: planificación (Planning), reconstrucción (Reconstruction), descomposición (Decomposition) y refinamiento (Refinement)
  • Los resultados son compatibles con motores de juego estándar como Unity y Unreal, y pueden usarse sin un proceso de conversión adicional
  • Tiene el potencial de hacer posible y más eficiente para cualquiera la creación de contenido 3D complejo y costoso

Descripción general de WorldGen

  • WorldGen puede generar en pocos minutos mundos 3D interactivos usando solo entradas de texto como “cartoon medieval village” o “sci-fi base station on Mars”
    • Los mundos generados mantienen consistencia de estilo y temática, y están conectados en una estructura por la que los personajes pueden desplazarse libremente
  • Basado en los avances de la IA generativa, puede construir entornos 3D completos a partir de un único prompt de texto o imagen

Estructura técnica y etapas de generación

  • WorldGen comienza con una etapa de planificación que incluye generación procedural de blockout, extracción de Navmesh y generación de imágenes de referencia
  • Después sigue una etapa de reconstrucción en la que realiza conversión de imagen a 3D, generación de escenas basada en Navmesh y creación de texturas básicas
  • Utiliza AutoPartGen para la descomposición de escenas y curación de datos, separando los elementos detallados
  • Por último, ejecuta una etapa de refinamiento mediante mejora de imagen, refinamiento de malla y modelos de texturizado

Diferencias frente a los métodos existentes

  • Los sistemas existentes generan principalmente en torno a un único punto de vista (viewpoint), por lo que la calidad se degrada rápidamente fuera de la zona central
  • WorldGen genera una escena completamente texturizada de 50×50 metros y mantiene la consistencia de estilo y geometría
  • Se está investigando con el objetivo de alcanzar mundos de mayor escala en el futuro

Compatibilidad y posibilidades de uso

  • Actualmente sigue en fase de investigación y no ha sido publicado para desarrolladores, pero el contenido generado puede usarse directamente en Unity y Unreal
  • No requiere una conversión adicional del pipeline de renderizado

Limitaciones y dirección futura

  • El modelo actual todavía tiene margen de mejora en términos de tamaño espacial y latencia de generación
  • Las futuras versiones apuntan a generar espacios más grandes y mejorar la velocidad

Importancia industrial

  • Reduce la complejidad y la carga de costos de la creación de contenido 3D, y plantea la posibilidad de que incluso personas no especialistas puedan construir mundos virtuales
  • Está alineado con la visión que Meta presentó en Connect de un “futuro en el que cualquiera pueda crear mundos virtuales sin escribir una sola línea de código

Agradecimientos

  • El proyecto fue llevado a cabo por el equipo 3D GenAI de Reality Labs
  • Principales contribuidores: Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn y otros (el símbolo † indica a los líderes del proyecto)

1 comentarios

 
GN⁺ 2025-11-24
Opiniones en Hacker News
  • Es una demo interesante, pero no se puede entrar a los edificios, el tamaño de los edificios y la distribución del pueblo son casi siempre iguales, y hay muchas inconsistencias visuales
    Al final, parece poco más que poner cajas parecidas sobre una cuadrícula y caminar entre ellas
    Entiendo que el progreso ocurre de forma gradual, pero comparado con otras demos de generación de mundos, esto se ve como un paso demasiado pequeño

    • Los pueblos hechos por IA se ven como si hubieran pasado por regulaciones urbanísticas estrictas
      Todos los edificios están colocados sobre una cuadrícula a intervalos regulares, y hasta parece haber límite de altura
      Los juegos de mundo abierto realistas (GTA, Cyberpunk, etc.) incluyen deliberadamente “congestión diseñada” como callejones sin salida o puertas cerradas
      Si todos los caminos llevan a algo interesante, la exploración pierde gracia
    • Esta demo podría ser más útil en una pipeline de producción de contenido que otros ejemplos como World Labs
      Si usa activos explícitos, tal vez sea más adecuada para desarrollo de juegos
      Meta ha publicado muchos de los papers clave en este campo y además está Hyperscape, así que puede verse como un intento experimental en otra dirección
    • No veo un enlace a una demo real que funcione
    • En la mayoría de los juegos tampoco puedes entrar a los edificios. Incluso en Cyberpunk, solo se abren muy pocas puertas
      Me pregunto cuándo llegará el día en que los usuarios comunes también puedan probar directamente este tipo de motores de worldgen
      Dan ganas de preguntarse por qué Google, Meta y Tencent siguen mostrando demos pero nunca liberan nada de verdad
  • Esto parece más una pipeline de ingeniería que combina tecnologías GenAI existentes
    El resultado tampoco está a nivel SOTA, y más que un avance, parece un enfoque sin salida
    La verdadera innovación sería generar directamente mallas con texturas mediante un modelo entrenado end-to-end, y el hecho de que no lo hayan logrado podría significar que todavía falta tecnología clave
    Aun así, tal vez sirva para bootstrappear datasets de entrenamiento para modelos futuros

    • Me da curiosidad cuál es hoy el estado del arte (SOTA) en este campo
    • Seguro los desarrolladores hicieron lo mejor posible para cumplir con lo que pidió la dirección, pero esto parece un ejemplo de los límites de innovación en las grandes empresas
  • Esto se parece más a 3DAssetGen que a un “modelo del mundo”
    No genera un mundo real, solo combina activos
    Un mundo hecho a mano es mucho mejor, e incluso resulta menos atractivo que un juego hecho con RPG Maker

    • En realidad parece generar solo una pequeña zona cuadrada. Un mundo en cuadrícula así probablemente sería incómodo para los jugadores
      Aun así, tiene valor como primer intento, y espero que la IA pueda bajar la barrera para crear mundos de metaverso
      Más aún si pensamos en el tiempo y costo enormes que implica crear aunque sea una pequeña isla al estilo GTA
    • En ninguna parte de la página aparece la expresión “modelo del mundo”
  • Mejor comprar modelos de edificios en una asset store de 5 dólares
    Cuesta creer que tenga sentido gastar decenas de miles de millones en centros de datos y dañar el medioambiente para hacer algo así

    • Creo que sería mejor usar ese dinero para apoyar a artistas low-poly como Quaternius
      También me pregunto si hoy en día los artistas 3D todavía tienen ganas de distribuir activos gratis
  • La atmósfera del primer video me recordó a Warcraft 3 y DotA
    Hubo una época en la que un solo mapa simple cambió por completo los juegos online y los eSports
    Ahora se pueden crear mundos bajo demanda de mucha mayor calidad, pero ese mapa simple de entonces se siente incluso más grandioso

  • Al final, lo único que queremos es un SimCity mejor, así que no entiendo por qué hacen falta tantos modelos de generación de mundos y tantos centros de datos
    Es irónico gastar enormes cantidades de energía y agua para crear pueblos falsos
    Yo mismo evito comprar una consola para no engancharme con juegos como Red Dead
    Me pregunto a quién beneficia realmente esta tecnología

  • Hice clic en el enlace y me salió un error 404, así que busqué y vi que en mayo ya existía un proyecto Worldgen con el mismo nombre
    Ese parece representar escenas 3D realistas mucho mejor

    • Pero en realidad eso se acerca más a un truco para hacer que una imagen 2D parezca 3D
      En cuanto mueves un poco la cámara, se rompe de inmediato
  • El paper en sí estaba bastante bien
    Tiene detalles interesantes sobre cómo manejan las mallas individuales
    Enlace al paper

  • Como usaban varias veces la palabra “interactivo”, esperaba interacción real como abrir puertas o recoger objetos,
    pero en realidad solo querían decir que se puede recorrer en primera persona
    Con esa definición, cualquier modelo 3D sería interactivo

  • Generación panorámica 2D basada en difusión → conversión a nube de puntos → lifting a 3D → inpainting 2D → optimización con 3D Gaussian Splatting
    Básicamente armaron un 3D uniendo imágenes de esa forma
    A nivel conceptual, es un enfoque difícil de llamar modelo del mundo, y da pena lo ambiguo del término