Modelo mundial de Waymo: una nueva frontera en la simulación de conducción autónoma

(waymo.com)

6 puntos por GN⁺ 2026-02-07 | 1 comentarios | Compartir por WhatsApp

Un modelo generativo del mundo para simulación autónoma a gran escala, que recrea en tiempo real entornos similares a la realidad
Construido sobre Genie 3, permite reproducir de forma realista situaciones raras o extremas (tornados, inundaciones, aparición de animales, etc.)
La simulación puede ajustarse con precisión mediante control de conducción, composición de escena y control por lenguaje, y genera simultáneamente datos de cámara y lidar
Convierte video común o grabaciones de dashcam en simulación multisensor, reproduciendo escenas reales de conducción tal como son
Este modelo es una herramienta clave para la validación de seguridad y la expansión del servicio, ya que permite prepararse incluso para situaciones casi imposibles en el mundo real

Resumen del modelo mundial de Waymo

Waymo Driver ha recorrido cerca de 200 millones de millas en conducción totalmente autónoma en las principales ciudades de Estados Unidos, además de miles de millones de millas en entornos virtuales
- Diseñado para aprender de antemano situaciones complejas que son difíciles de encontrar en carreteras reales
El modelo mundial de Waymo (Waymo World Model) es un sistema de generación de simulaciones hiperrealistas para esa conducción virtual
- Es uno de los tres pilares centrales del ecosistema de IA de Waymo y sirve como base para demostrar la seguridad

Estructura y funciones basadas en Genie 3

Se basa en Genie 3 de Google DeepMind y está ajustado específicamente para entornos de conducción
- Genie 3 es un modelo mundial de propósito general que genera entornos 3D realistas e interactivos
Aprovechando el amplio conocimiento del mundo de Genie, puede simular incluso eventos casi imposibles en la realidad, como encontrarse con un tornado o un elefante
La simulación se controla con precisión mediante prompts en lenguaje, entradas de conducción y disposición de escena
Admite salida multisensor que genera tanto datos de cámara como de lidar

Conocimiento multimodal del mundo

Los simuladores tradicionales de conducción autónoma se entrenan solo con datos recopilados por ellos mismos, pero el modelo de Waymo aprovecha los amplios datos de video preentrenados de Genie 3
Transfiere el conocimiento de video 2D a salidas 3D para el sistema lidar de Waymo
- La cámara destaca en el detalle visual, mientras que el lidar sobresale en la información precisa de profundidad
Puede generar una amplia variedad de escenas, desde conducción cotidiana hasta situaciones raras de cola larga
Simulación de clima extremo y desastres naturales
- Genera escenas como conducir por el Golden Gate cubierto de nieve, encontrarse con un tornado, zonas suburbanas inundadas, calles nevadas en una ciudad tropical y escapar en medio de un incendio
Eventos raros y críticos para la seguridad
- Reproduce escenarios relacionados con seguridad como conductores agresivos, vehículos que golpean ramas de árboles, vehículos con carga inestable y camiones en sentido contrario
Objetos de cola larga y situaciones inusuales
- Ofrece simulaciones de encuentros con objetos poco habituales como elefantes, Texas longhorns, leones, peatones disfrazados de dinosaurio y molinos de viento gigantes

Funciones de control de simulación

Puede ajustarse de tres maneras: control de maniobras de conducción, control de composición de escena y control por lenguaje
Control de maniobras de conducción
- Implementa un simulador interactivo que responde a entradas específicas de conducción
  - Ejemplo: experimentar el resultado de conducir de manera más agresiva en cierta situación
- Mantiene consistencia visual y realismo superiores al enfoque tradicional de 3DGS (3D Gaussian Splats)
Control de composición de escena
- Permite modificar libremente la estructura de la vía, el estado de las señales y el comportamiento de los vehículos circundantes
  - Admite la creación de escenarios personalizados y la transformación del entorno vial
Control por lenguaje
- Permite cambiar mediante comandos de texto la hora del día, el clima y la escena completa
  - Ejemplo: cambiar entre madrugada, mañana, mediodía, tarde y noche
  - Cambio de condiciones climáticas como nublado, niebla, lluvia, nieve y despejado

Conversión a simulación basada en video

Toma como entrada video de cámaras comunes o dashcams y lo convierte en una simulación multisensor desde la perspectiva de Waymo Driver
- Al basarse en video real, ofrece alta fidelidad y precisión
Ejemplos: conversión de video de lugares reales como Noruega, el Parque Nacional Arches en Utah y Death Valley en California

Inferencia escalable (Scalable Inference)

Las simulaciones de escenas largas requieren mucho cómputo, pero una variante optimizada del modelo reduce drásticamente el costo computacional manteniendo alta calidad
- Admite escenarios prolongados como paso por carriles estrechos, intersecciones complejas y subidas
Ejemplos de reproducción a 4x: evasión de cuellos de botella en autopista, conducción en zonas residenciales complejas, evasión de motocicletas en subida y vuelta en U de una SUV

Seguridad y escalabilidad

Recrea virtualmente situaciones casi imposibles en la realidad para prepararse con anticipación
Refuerza los estándares de seguridad de Waymo Driver y sienta las bases para la expansión del servicio a nuevas regiones y entornos

En el proyecto participaron numerosos investigadores de Waymo y Google DeepMind

1 comentarios

GN⁺ 2026-02-07

Opiniones de Hacker News

De repente entiendo por qué DeepMind se está enfocando en los world models
Nunca había pensado en Waymo como un “robot”, como los humanoides de Boston Dynamics, pero en la práctica lo es
Google/Alphabet tiene un nivel de integración vertical sorprendentemente completo en IA: generación de energía propia, chips, centros de datos, Search·Gmail·YouTube·Gemini·Workspace·Wallet, miles de millones de usuarios de Android y Chromebook, red publicitaria, navegador, Waymo, colaboración con Boston Dynamics, investigación en fusión nuclear e incluso desarrollo de fármacos
A esa escala, chatbots como ChatGPT o Grok ni se comparan
- Google se ha enfocado más en la I+D interna y la aplicación propia que en vender la IA como producto
  Antes pensaba que la investigación de autos autónomos era para Street View, pero ahora veo que había un plan mucho más grande
- Google ya investigaba world models desde 2018
  El paper relacionado puede verse aquí
- Tesla también construyó un sistema parecido para entrenar FSD, pero da lástima que no lo hayan convertido en un producto de mapas
  Podrían haber actualizado en tiempo real las condiciones de las calles desde los vehículos, pero ahora da la impresión de que se quedaron bastante atrás
- Ahora también entiendo en ese contexto por qué Tesla empezó con los robots humanoides
- Si apenas te diste cuenta de esta perspectiva, vas al menos 3 años detrás de Tesla
  El video relacionado está aquí
Dicen que el modelo Genie puede simular eventos raros (tornados, encuentros con elefantes, etc.), pero me pregunto si lo generado realmente es realista
Por ejemplo, incluso si el modelo predice una situación con esferas de acero de 5 mm regadas en la carretera, preocupa cómo verificar si eso es una cifra razonable
- Con el tiempo, la calidad del world model puede mejorar, de modo que los sistemas de conducción autónoma puedan entrenarse con datos sintéticos “suficientemente realistas”
  No tiene que ser perfecto; se puede crear un ciclo virtuoso en el que mejore gradualmente mediante uso repetido y validación
- No se trata de declarar “ahora el auto es seguro incluso con bolitas de acero”, sino de usarlo como pruebas unitarias para comprobar si reacciona como se espera en situaciones concretas
  Por ejemplo, también podrían detectarse por simulación casos extremos como una vaca blanca en una tormenta de nieve
- Si pueden simular “desde tornados hasta elefantes”, un juego como The Sims también sonaría genial
- En realidad, esta incertidumbre también aplica por igual a los humanos
  La predicción perfecta es imposible, pero es un proceso de mejora gradual hacia el mejor juicio posible basado en conocimiento
- Hace falta un enfoque de entrenar con simulación y validar en el mundo real
Dicen que el Waymo World Model puede convertir incluso video de cámaras comunes en una simulación multimodal, lo que significa que, si Waymo quisiera, podría conducir solo con cámaras
- Pero en realidad lo que hace es transformarlo en una representación bootstrappeada con LiDAR, video y otros sensores
  Como Tesla no pasó por una etapa con LiDAR, es difícil que obtenga este tipo de resultados
- El LiDAR sirve para corregir errores cuando la precisión de la cámara baja
  Complementa la percepción de profundidad, como la disparidad binocular en los humanos
- También sigue siendo importante para prepararse ante ataques de jamming al LiDAR
- Convertir video → datos de sensores, y conducir usando esos datos, son etapas distintas
  La primera es para entrenamiento; la segunda es para el vehículo real
- Para que la sociedad acepte los autos autónomos, tienen que ser mucho más seguros que los humanos
  Por eso el enfoque de usar solo cámaras tiene límites
La tecnología es impresionante, pero creo que mejorar la infraestructura ferroviaria es más urgente
- Desde la perspectiva de alguien que vive en el Bay Area, ya hay trenes, pero las tarifas, la gestión y el orden están tan mal que ni siquiera recuperan sus costos operativos
  La gente deja de usarlos por los colados, la violencia y la falta de higiene
  Ignorar esa realidad mientras solo se repite que hay que usar transporte público suena vacío
  Por eso, si un servicio como Waymo realmente ofrece la calidad que promete, va a llamar más la atención
  Personalmente, creo que los sistemas de bicicletas compartidas son la única alternativa que sí ha cumplido lo prometido
- Al final, los trenes se vuelven un infierno si no se mantiene la conducta cívica de las personas
  El ruido, la mendicidad y los problemas de drogas hacen que el transporte público se vuelva algo que la gente evita
- En cualquier caso, el auto sigue teniendo una ventaja absoluta
  Dada la realidad de la infraestructura en EE. UU., una reforma ferroviaria a gran escala no es realista
  Incluso en Japón, donde el tren está muy desarrollado, la tasa de posesión de autos no es tan distinta de la de EE. UU.
- Creo que es mejor un vehículo que te lleve a donde quieras, de forma segura y limpia, ajustándose a tu horario personal
- Aun así, Waymo podría ser un punto de inflexión para reducir conductores y la propiedad de vehículos
El punto clave de este anuncio es la tecnología para generar datos 3D de LiDAR a partir de video 2D
El acceso de DeepMind y Google a infraestructura es la ventaja competitiva aplastante de Waymo
- En realidad, la tecnología para estimar 3D a partir de video 2D existe desde hace décadas
- Hay enfoques de monodepth como Metric3D, pero los resultados de Waymo claramente están al nivel más avanzado (SOTA)
Las simulaciones de inundaciones, tornados e incendios forestales son impresionantes, pero resulta dudoso que Waymo se haya detenido en masa en una situación común como un apagón
Si no puede manejar ese tipo de escenarios básicos, la utilidad de la simulación se debilita
- La simulación mejora el desempeño de cada vehículo, pero el apagón fue un problema del sistema completo por sobrecarga del personal de soporte remoto
  Es decir, la simulación sigue siendo valiosa, pero no puede evitar todos los fallos
- De hecho, también hubo casos en que Waymo entró en zonas inundadas
  Video relacionado
Parece riesgoso que Waymo use situaciones contrafactuales virtuales (counterfactual) para entrenamiento
Como seguramente hay más videos de casos en que “salió bien” que de tragedias reales, al final podría aprender un exceso de confianza
- Pero en realidad no se trata de “contrafactuales”, sino de generación para complementar situaciones raras
  La idea es que Waymo pueda reaccionar sin quedarse paralizado incluso si se encuentra con un tornado o un elefante
- Conducir es un problema de equilibrio entre velocidad y seguridad
  Si se persigue solo la seguridad total, el auto terminaría sin moverse nunca
- No entrar a una intersección cuando ya es seguro hacerlo, o conducir solo a 5 mph, también es una forma incorrecta de manejar
  El enfoque de que “más lento = más seguro” no es necesariamente correcto
Un world model podría ser peligroso por datos sesgados en situaciones reales de seguridad
Si se entrena con datos donde casi no hay fallos, puede que no logre reproducir situaciones reales de accidente
- Pero Waymo ya se está entrenando con más de 100 millones de millas de conducción real
  Como ejemplo, este video muestra un caso de evasión de colisión
- Claro, la posibilidad de sesgo sigue existiendo, pero se puede asegurar diversidad con generación de escenarios basada en prompts usando LLM
  Aun así, el criterio de qué es “suficientemente realista” es ambiguo
  Como tampoco se puede confiar al 100% en los humanos, si se combina un nivel 10 veces más seguro con salvaguardas verificables basadas en código, la aceptación social sería mayor
El Project Genie de DeepMind parece ser la tecnología base de Waymo
Artículo relacionado: Genie 3: A new frontier for world models
Debate en Hacker News: Genie 3, Project Genie
- DeepMind no es solo una subsidiaria más de Alphabet, sino la organización clave con la que Demis Hassabis lidera toda la IA de Google
Esto me recuerda al meme de la curva de campana del aprendizaje en conducción autónoma
Primero se empieza con simuladores basados en física, luego se recolectan datos reales y después se regresa a simuladores de deep learning que incorporan información física
- Al final, el ciclo va de simulación simple → datos reales → simulación para la realidad rara
  Parece una etapa de evolución tan natural que hasta dan ganas de ponerle nombre a ese patrón

Modelo mundial de Waymo: una nueva frontera en la simulación de conducción autónoma

Resumen del modelo mundial de Waymo

Estructura y funciones basadas en Genie 3

Conocimiento multimodal del mundo

Simulación de clima extremo y desastres naturales

Eventos raros y críticos para la seguridad

Objetos de cola larga y situaciones inusuales

Funciones de control de simulación

Control de maniobras de conducción

Control de composición de escena

Control por lenguaje

Conversión a simulación basada en video

Inferencia escalable (Scalable Inference)

Seguridad y escalabilidad

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News