Gemini Robotics-ER 1.6: razonamiento corporal mejorado
(deepmind.google)- Un modelo de razonamiento corporal mejorado (embodied reasoning) diseñado para que los robots comprendan con precisión el entorno físico y actúen de forma autónoma, con grandes mejoras en razonamiento espacial y planificación de tareas
- Realiza funciones de juicio de alto nivel en robots, como comprensión visual y espacial, detección de éxito y razonamiento multivista, y procesa directamente tareas complejas mediante Google Search o llamadas a funciones externas
- Con la función de Pointing (señalamiento), ejecuta diversas lógicas espaciales como detección de objetos, comparación y estimación de trayectorias, reduciendo los errores de alucinación frente a la versión anterior y mejorando la precisión de reconocimiento
- Incorpora la nueva función de lectura de instrumentos (Instrument Reading), que permite al robot Spot de Boston Dynamics interpretar con precisión termómetros, medidores de presión y otros instrumentos en instalaciones industriales
- Se caracteriza por una mejor tasa de cumplimiento de políticas de seguridad y por la colaboración con la comunidad para aumentar la autonomía y la confiabilidad en entornos reales
Resumen de Gemini Robotics-ER 1.6
- Gemini Robotics-ER 1.6 es un modelo de razonamiento corporal mejorado diseñado para que los robots comprendan con precisión el entorno físico y actúen de forma autónoma
- Refuerza capacidades de razonamiento de alto nivel esenciales para la robótica, como razonamiento espacial, comprensión multivista, planificación de tareas y detección de éxito
- Puede invocar directamente varias herramientas para ejecutar tareas, como Google Search, modelos Vision-Language-Action (VLA) y funciones externas definidas por el usuario
- En comparación con Gemini Robotics-ER 1.5 y Gemini 3.0 Flash, muestra mejoras notables en razonamiento espacial y físico (señalamiento, conteo, detección de éxito)
- Añade una nueva función de lectura de instrumentos (instrument reading) desarrollada en colaboración con Boston Dynamics
Funciones principales y mejoras de rendimiento
- Gemini Robotics-ER 1.6 está disponible para desarrolladores a través de la Gemini API y Google AI Studio
- Los ejemplos de Colab en GitHub muestran cómo configurar el modelo y estructurar prompts para tareas de razonamiento corporal
- El modelo actúa como un motor superior de razonamiento encargado del juicio de alto nivel del robot, como comprensión visual y espacial, planificación de tareas y detección de éxito
- Aprovecha agentic vision para combinar razonamiento visual con ejecución de código, logrando alta precisión incluso en entornos físicos complejos
Pointing (señalamiento): base del razonamiento espacial
- El señalamiento es una función central del modelo de razonamiento corporal y se usa en diversas lógicas espaciales como detección de objetos, comparación y estimación de trayectorias
- Razonamiento espacial: detección precisa de objetos y conteo
- Lógica relacional: identificación del elemento mínimo dentro de un conjunto, definición de relaciones como “mueve X a la posición Y”
- Razonamiento de movimiento: mapeo de trayectorias e identificación del punto óptimo de agarre
- Cumplimiento de restricciones: procesamiento de instrucciones complejas como “señala todos los objetos lo suficientemente pequeños como para caber dentro de la taza azul”
- Gemini Robotics-ER 1.6 usa el señalamiento como paso intermedio para resolver tareas complejas de manera gradual
- Ej.: contar la cantidad de objetos en una imagen, identificar puntos clave para cálculos matemáticos
- Según los experimentos, la versión 1.6 identifica con precisión múltiples objetos como martillo, tijeras, brocha y pinzas, y no señala objetos inexistentes (por ejemplo, carretilla o taladro)
- La versión 1.5 reconocía mal algunos objetos o alucinaba objetos inexistentes
- 3.0 Flash muestra un rendimiento cercano, pero con menor precisión al reconocer pinzas
Detección de éxito (Success Detection): motor clave de la autonomía
- La capacidad del robot para reconocer cuándo una tarea ha terminado es un elemento central de la autonomía
- Gemini Robotics-ER 1.6 mejora el razonamiento multivista (multi-view reasoning) para entender relaciones entre múltiples feeds de cámara
- Puede interpretar escenas de forma consistente incluso en entornos complejos, con oclusiones, problemas de iluminación o instrucciones ambiguas
- Ejemplo: determina con precisión, a partir de video desde varios puntos de vista, cuándo se completó la tarea de “poner el bolígrafo azul en el portaplumas negro”
Lectura de instrumentos (Instrument Reading): razonamiento visual en entornos reales
- Función para interpretar instrumentos como termómetros, medidores de presión y mirillas de nivel en instalaciones industriales
- El robot Spot de Boston Dynamics captura imágenes de los instrumentos en la instalación, y Gemini Robotics-ER 1.6 las interpreta
- Soporta la lectura de diversos formatos de instrumentos, como medidores de presión circulares, indicadores de nivel verticales e instrumentos digitales
- El proceso de lectura interpreta de forma integrada elementos visuales complejos como altura del líquido sedimentado, escalas, texto de unidades y múltiples agujas
- En el caso de la mirilla de nivel, estima la altura del líquido teniendo en cuenta la distorsión de la cámara
- Mediante agentic vision realiza de forma gradual zoom, señalamiento y ejecución de código para lograr lecturas precisas a nivel sub-tick
- Marco da Silva, vicepresidente de Boston Dynamics, comentó que esta función permite que Spot reconozca y responda a problemas del mundo real de forma completamente autónoma
Mejoras de seguridad
- Gemini Robotics-ER 1.6 es evaluado como el modelo de robótica más seguro
- Presenta una mayor tasa de cumplimiento de las políticas de seguridad de Gemini que la generación anterior
- Se fortaleció la capacidad de cumplir restricciones de seguridad física
- Ej.: restricciones como “no manipules líquidos” o “no levantes objetos de más de 20 kg” se reflejan desde la etapa de salida espacial (señalamiento)
- En pruebas de reconocimiento de escenarios de seguridad en texto y video basadas en reportes reales de lesiones
- mejora de +6% en texto y +10% en video frente a Gemini 3.0 Flash
- En la evaluación Safety Instruction Following, muestra una gran mejora frente a 1.5 y también aumenta la precisión de señalamiento
Colaboración con la comunidad de robótica
- Google DeepMind impulsa la colaboración con la comunidad de robótica para seguir mejorando las capacidades de Gemini Robotics-ER
- Si existen limitaciones en un campo de aplicación específico, solicita compartir casos fallidos enviando 10 a 50 imágenes etiquetadas
- Con ello busca fortalecer la robustez de las capacidades de razonamiento en futuras versiones
- Gemini Robotics-ER 1.6 puede probarse de inmediato en Google AI Studio
1 comentarios
Comentarios en Hacker News
Da la impresión de que cada vez estamos más cerca de llegar al nivel de imitar el comportamiento humano o animal
Si se pudiera montar sobre los modelos generativos un patrón de orquestación que funcione como un cerebro, y si la velocidad de razonamiento fuera lo bastante rápida, parecería posible hacer muchas más cosas
Por ejemplo, generar y ejecutar un script de Python para leer un indicador hoy es lento, pero si fuera 100 a 1000 veces más rápido, parecería posible crear un ciclo en el que el modelo tome fotos, simule el futuro y tome decisiones por sí mismo
Sin embargo, como el modelo que usan es un Llama antiguo, la calidad es baja, pero si realmente escala, sería algo impresionante
Creo que al final es solo cuestión de tiempo
Los humanos son un producto evolutivo de la caza y la fabricación de herramientas, pero la automatización industrial real ha avanzado no con formas humanoides, sino con formas prácticas como R2D2
Los robots domésticos también probablemente se parecerán más a eso
Imagino qué pasaría si preparas un terreno, piernas de robot, brazos, baterías, GPU y paneles solares,
y luego le das el prompt: “administra esta tierra y cultiva verduras”
El satoyama de Japón, la rotación de cultivos en África y la agricultura en curvas de nivel en Rusia muestran que cada región tenía sus propios métodos
En última instancia, se enfatiza que la forma de cuidar la tierra depende de la localidad y los objetivos
Google y Boston Dynamics están desarrollando modelos en colaboración,
y ahora Hyundai, tras adquirir Boston Dynamics, intenta desplegar robots en la automatización de fábricas
Pensé que estaría bien tener un software que tome una foto de un manómetro con una cámara y lo registre en una gráfica
Me pregunto si existe algo así para consumidores
Me pregunto si realmente tiene sentido que un robot lea instrumentos analógicos
¿No sería mejor simplemente cambiarlos por sensores digitales?
No es una comparación simple, y es fácil subestimar la complejidad de estos cambios
Aquí aplica el principio de “si no está roto, no lo arregles”
Creo que esto encajaría perfecto con mi sistema de “LLMs can control robots over MCP”
Como los LLM escriben bien código, quiero aprovechar esa capacidad
Planeo probarlo con el robot grande que compré recientemente
Post relacionado
Era una arquitectura que combinaba un modelo de control robótico con un LLM mediante una attention layer
Lo que más me daba curiosidad era la parte de la latencia
En algunas tareas de percepción es mejor que los modelos frontier de visión, pero para robótica importa el rendimiento en Hz
Supongo que debe ser lento
“Piensa” unos segundos y da el resultado
En cosas como contar patas de animales o leer relojes analógicos, la relación rendimiento/eficiencia del modelo fue muy alta
Me parece interesante la expresión “el modelo robótico más seguro”
Gemini Robotics-ER 1.6 cumple mejor las políticas de seguridad que la generación anterior,
pero todavía no está en una etapa completamente comercial, y parece realista enfocarlo como una meta de seguridad más que como algo ya resuelto
Puede que la IA para robots tenga modelos internos al nivel de GPT-2 o GPT-3,
pero creo que es difícil publicarlos porque fallar en entornos cotidianos sería crítico
Por ejemplo, romper aunque sea un solo plato en el lavavajillas se vería como un gran problema
Fue una buena película para ver en este momento
Los primeros Roomba también eran un desastre bastante seguido, pero el mercado los aceptó y al final fueron mejorando
Creo que es importante entrar primero al mercado recopilando datos, aunque no sea perfecto
No existe un sistema perfecto
Si un robot lo hace mejor que yo, en realidad sería una mejora
No me parece honesto afirmar que ya existe un modelo al nivel de GPT
Estoy pensando si debo seguir usando el modelo actual
hasta que Google lance oficialmente Gemini Flash 3.1