- Un modelo generativo del mundo para simulación autónoma a gran escala, que recrea en tiempo real entornos similares a la realidad
- Construido sobre Genie 3, permite reproducir de forma realista situaciones raras o extremas (tornados, inundaciones, aparición de animales, etc.)
- La simulación puede ajustarse con precisión mediante control de conducción, composición de escena y control por lenguaje, y genera simultáneamente datos de cámara y lidar
- Convierte video común o grabaciones de dashcam en simulación multisensor, reproduciendo escenas reales de conducción tal como son
- Este modelo es una herramienta clave para la validación de seguridad y la expansión del servicio, ya que permite prepararse incluso para situaciones casi imposibles en el mundo real
Resumen del modelo mundial de Waymo
- Waymo Driver ha recorrido cerca de 200 millones de millas en conducción totalmente autónoma en las principales ciudades de Estados Unidos, además de miles de millones de millas en entornos virtuales
- Diseñado para aprender de antemano situaciones complejas que son difíciles de encontrar en carreteras reales
- El modelo mundial de Waymo (Waymo World Model) es un sistema de generación de simulaciones hiperrealistas para esa conducción virtual
- Es uno de los tres pilares centrales del ecosistema de IA de Waymo y sirve como base para demostrar la seguridad
Estructura y funciones basadas en Genie 3
- Se basa en Genie 3 de Google DeepMind y está ajustado específicamente para entornos de conducción
- Genie 3 es un modelo mundial de propósito general que genera entornos 3D realistas e interactivos
- Aprovechando el amplio conocimiento del mundo de Genie, puede simular incluso eventos casi imposibles en la realidad, como encontrarse con un tornado o un elefante
- La simulación se controla con precisión mediante prompts en lenguaje, entradas de conducción y disposición de escena
- Admite salida multisensor que genera tanto datos de cámara como de lidar
Conocimiento multimodal del mundo
- Los simuladores tradicionales de conducción autónoma se entrenan solo con datos recopilados por ellos mismos, pero el modelo de Waymo aprovecha los amplios datos de video preentrenados de Genie 3
- Transfiere el conocimiento de video 2D a salidas 3D para el sistema lidar de Waymo
- La cámara destaca en el detalle visual, mientras que el lidar sobresale en la información precisa de profundidad
- Puede generar una amplia variedad de escenas, desde conducción cotidiana hasta situaciones raras de cola larga
-
Simulación de clima extremo y desastres naturales
- Genera escenas como conducir por el Golden Gate cubierto de nieve, encontrarse con un tornado, zonas suburbanas inundadas, calles nevadas en una ciudad tropical y escapar en medio de un incendio
-
Eventos raros y críticos para la seguridad
- Reproduce escenarios relacionados con seguridad como conductores agresivos, vehículos que golpean ramas de árboles, vehículos con carga inestable y camiones en sentido contrario
-
Objetos de cola larga y situaciones inusuales
- Ofrece simulaciones de encuentros con objetos poco habituales como elefantes, Texas longhorns, leones, peatones disfrazados de dinosaurio y molinos de viento gigantes
Funciones de control de simulación
- Puede ajustarse de tres maneras: control de maniobras de conducción, control de composición de escena y control por lenguaje
-
Control de maniobras de conducción
- Implementa un simulador interactivo que responde a entradas específicas de conducción
- Ejemplo: experimentar el resultado de conducir de manera más agresiva en cierta situación
- Mantiene consistencia visual y realismo superiores al enfoque tradicional de 3DGS (3D Gaussian Splats)
-
Control de composición de escena
- Permite modificar libremente la estructura de la vía, el estado de las señales y el comportamiento de los vehículos circundantes
- Admite la creación de escenarios personalizados y la transformación del entorno vial
-
Control por lenguaje
- Permite cambiar mediante comandos de texto la hora del día, el clima y la escena completa
- Ejemplo: cambiar entre madrugada, mañana, mediodía, tarde y noche
- Cambio de condiciones climáticas como nublado, niebla, lluvia, nieve y despejado
Conversión a simulación basada en video
- Toma como entrada video de cámaras comunes o dashcams y lo convierte en una simulación multisensor desde la perspectiva de Waymo Driver
- Al basarse en video real, ofrece alta fidelidad y precisión
- Ejemplos: conversión de video de lugares reales como Noruega, el Parque Nacional Arches en Utah y Death Valley en California
Inferencia escalable (Scalable Inference)
- Las simulaciones de escenas largas requieren mucho cómputo, pero una variante optimizada del modelo reduce drásticamente el costo computacional manteniendo alta calidad
- Admite escenarios prolongados como paso por carriles estrechos, intersecciones complejas y subidas
- Ejemplos de reproducción a 4x: evasión de cuellos de botella en autopista, conducción en zonas residenciales complejas, evasión de motocicletas en subida y vuelta en U de una SUV
Seguridad y escalabilidad
- Recrea virtualmente situaciones casi imposibles en la realidad para prepararse con anticipación
- Refuerza los estándares de seguridad de Waymo Driver y sienta las bases para la expansión del servicio a nuevas regiones y entornos
- En el proyecto participaron numerosos investigadores de Waymo y Google DeepMind
1 comentarios
Opiniones de Hacker News
De repente entiendo por qué DeepMind se está enfocando en los world models
Nunca había pensado en Waymo como un “robot”, como los humanoides de Boston Dynamics, pero en la práctica lo es
Google/Alphabet tiene un nivel de integración vertical sorprendentemente completo en IA: generación de energía propia, chips, centros de datos, Search·Gmail·YouTube·Gemini·Workspace·Wallet, miles de millones de usuarios de Android y Chromebook, red publicitaria, navegador, Waymo, colaboración con Boston Dynamics, investigación en fusión nuclear e incluso desarrollo de fármacos
A esa escala, chatbots como ChatGPT o Grok ni se comparan
Antes pensaba que la investigación de autos autónomos era para Street View, pero ahora veo que había un plan mucho más grande
El paper relacionado puede verse aquí
Podrían haber actualizado en tiempo real las condiciones de las calles desde los vehículos, pero ahora da la impresión de que se quedaron bastante atrás
El video relacionado está aquí
Dicen que el modelo Genie puede simular eventos raros (tornados, encuentros con elefantes, etc.), pero me pregunto si lo generado realmente es realista
Por ejemplo, incluso si el modelo predice una situación con esferas de acero de 5 mm regadas en la carretera, preocupa cómo verificar si eso es una cifra razonable
No tiene que ser perfecto; se puede crear un ciclo virtuoso en el que mejore gradualmente mediante uso repetido y validación
Por ejemplo, también podrían detectarse por simulación casos extremos como una vaca blanca en una tormenta de nieve
La predicción perfecta es imposible, pero es un proceso de mejora gradual hacia el mejor juicio posible basado en conocimiento
Dicen que el Waymo World Model puede convertir incluso video de cámaras comunes en una simulación multimodal, lo que significa que, si Waymo quisiera, podría conducir solo con cámaras
Como Tesla no pasó por una etapa con LiDAR, es difícil que obtenga este tipo de resultados
Complementa la percepción de profundidad, como la disparidad binocular en los humanos
La primera es para entrenamiento; la segunda es para el vehículo real
Por eso el enfoque de usar solo cámaras tiene límites
La tecnología es impresionante, pero creo que mejorar la infraestructura ferroviaria es más urgente
La gente deja de usarlos por los colados, la violencia y la falta de higiene
Ignorar esa realidad mientras solo se repite que hay que usar transporte público suena vacío
Por eso, si un servicio como Waymo realmente ofrece la calidad que promete, va a llamar más la atención
Personalmente, creo que los sistemas de bicicletas compartidas son la única alternativa que sí ha cumplido lo prometido
El ruido, la mendicidad y los problemas de drogas hacen que el transporte público se vuelva algo que la gente evita
Dada la realidad de la infraestructura en EE. UU., una reforma ferroviaria a gran escala no es realista
Incluso en Japón, donde el tren está muy desarrollado, la tasa de posesión de autos no es tan distinta de la de EE. UU.
El punto clave de este anuncio es la tecnología para generar datos 3D de LiDAR a partir de video 2D
El acceso de DeepMind y Google a infraestructura es la ventaja competitiva aplastante de Waymo
Las simulaciones de inundaciones, tornados e incendios forestales son impresionantes, pero resulta dudoso que Waymo se haya detenido en masa en una situación común como un apagón
Si no puede manejar ese tipo de escenarios básicos, la utilidad de la simulación se debilita
Es decir, la simulación sigue siendo valiosa, pero no puede evitar todos los fallos
Video relacionado
Parece riesgoso que Waymo use situaciones contrafactuales virtuales (counterfactual) para entrenamiento
Como seguramente hay más videos de casos en que “salió bien” que de tragedias reales, al final podría aprender un exceso de confianza
La idea es que Waymo pueda reaccionar sin quedarse paralizado incluso si se encuentra con un tornado o un elefante
Si se persigue solo la seguridad total, el auto terminaría sin moverse nunca
El enfoque de que “más lento = más seguro” no es necesariamente correcto
Un world model podría ser peligroso por datos sesgados en situaciones reales de seguridad
Si se entrena con datos donde casi no hay fallos, puede que no logre reproducir situaciones reales de accidente
Como ejemplo, este video muestra un caso de evasión de colisión
Aun así, el criterio de qué es “suficientemente realista” es ambiguo
Como tampoco se puede confiar al 100% en los humanos, si se combina un nivel 10 veces más seguro con salvaguardas verificables basadas en código, la aceptación social sería mayor
El Project Genie de DeepMind parece ser la tecnología base de Waymo
Artículo relacionado: Genie 3: A new frontier for world models
Debate en Hacker News: Genie 3, Project Genie
Esto me recuerda al meme de la curva de campana del aprendizaje en conducción autónoma
Primero se empieza con simuladores basados en física, luego se recolectan datos reales y después se regresa a simuladores de deep learning que incorporan información física
Parece una etapa de evolución tan natural que hasta dan ganas de ponerle nombre a ese patrón