Gemini Robotics-ER 1.6: razonamiento corporal mejorado

(deepmind.google)

1 puntos por GN⁺ 14 일 전 | 1 comentarios | Compartir por WhatsApp

Un modelo de razonamiento corporal mejorado (embodied reasoning) diseñado para que los robots comprendan con precisión el entorno físico y actúen de forma autónoma, con grandes mejoras en razonamiento espacial y planificación de tareas
Realiza funciones de juicio de alto nivel en robots, como comprensión visual y espacial, detección de éxito y razonamiento multivista, y procesa directamente tareas complejas mediante Google Search o llamadas a funciones externas
Con la función de Pointing (señalamiento), ejecuta diversas lógicas espaciales como detección de objetos, comparación y estimación de trayectorias, reduciendo los errores de alucinación frente a la versión anterior y mejorando la precisión de reconocimiento
Incorpora la nueva función de lectura de instrumentos (Instrument Reading), que permite al robot Spot de Boston Dynamics interpretar con precisión termómetros, medidores de presión y otros instrumentos en instalaciones industriales
Se caracteriza por una mejor tasa de cumplimiento de políticas de seguridad y por la colaboración con la comunidad para aumentar la autonomía y la confiabilidad en entornos reales

Resumen de Gemini Robotics-ER 1.6

Gemini Robotics-ER 1.6 es un modelo de razonamiento corporal mejorado diseñado para que los robots comprendan con precisión el entorno físico y actúen de forma autónoma
Refuerza capacidades de razonamiento de alto nivel esenciales para la robótica, como razonamiento espacial, comprensión multivista, planificación de tareas y detección de éxito
Puede invocar directamente varias herramientas para ejecutar tareas, como Google Search, modelos Vision-Language-Action (VLA) y funciones externas definidas por el usuario
En comparación con Gemini Robotics-ER 1.5 y Gemini 3.0 Flash, muestra mejoras notables en razonamiento espacial y físico (señalamiento, conteo, detección de éxito)
Añade una nueva función de lectura de instrumentos (instrument reading) desarrollada en colaboración con Boston Dynamics

Funciones principales y mejoras de rendimiento

Gemini Robotics-ER 1.6 está disponible para desarrolladores a través de la Gemini API y Google AI Studio
- Los ejemplos de Colab en GitHub muestran cómo configurar el modelo y estructurar prompts para tareas de razonamiento corporal
El modelo actúa como un motor superior de razonamiento encargado del juicio de alto nivel del robot, como comprensión visual y espacial, planificación de tareas y detección de éxito
Aprovecha agentic vision para combinar razonamiento visual con ejecución de código, logrando alta precisión incluso en entornos físicos complejos

Pointing (señalamiento): base del razonamiento espacial

El señalamiento es una función central del modelo de razonamiento corporal y se usa en diversas lógicas espaciales como detección de objetos, comparación y estimación de trayectorias
- Razonamiento espacial: detección precisa de objetos y conteo
- Lógica relacional: identificación del elemento mínimo dentro de un conjunto, definición de relaciones como “mueve X a la posición Y”
- Razonamiento de movimiento: mapeo de trayectorias e identificación del punto óptimo de agarre
- Cumplimiento de restricciones: procesamiento de instrucciones complejas como “señala todos los objetos lo suficientemente pequeños como para caber dentro de la taza azul”
Gemini Robotics-ER 1.6 usa el señalamiento como paso intermedio para resolver tareas complejas de manera gradual
- Ej.: contar la cantidad de objetos en una imagen, identificar puntos clave para cálculos matemáticos
Según los experimentos, la versión 1.6 identifica con precisión múltiples objetos como martillo, tijeras, brocha y pinzas, y no señala objetos inexistentes (por ejemplo, carretilla o taladro)
- La versión 1.5 reconocía mal algunos objetos o alucinaba objetos inexistentes
- 3.0 Flash muestra un rendimiento cercano, pero con menor precisión al reconocer pinzas

Detección de éxito (Success Detection): motor clave de la autonomía

La capacidad del robot para reconocer cuándo una tarea ha terminado es un elemento central de la autonomía
Gemini Robotics-ER 1.6 mejora el razonamiento multivista (multi-view reasoning) para entender relaciones entre múltiples feeds de cámara
- Puede interpretar escenas de forma consistente incluso en entornos complejos, con oclusiones, problemas de iluminación o instrucciones ambiguas
- Ejemplo: determina con precisión, a partir de video desde varios puntos de vista, cuándo se completó la tarea de “poner el bolígrafo azul en el portaplumas negro”

Lectura de instrumentos (Instrument Reading): razonamiento visual en entornos reales

Función para interpretar instrumentos como termómetros, medidores de presión y mirillas de nivel en instalaciones industriales
- El robot Spot de Boston Dynamics captura imágenes de los instrumentos en la instalación, y Gemini Robotics-ER 1.6 las interpreta
Soporta la lectura de diversos formatos de instrumentos, como medidores de presión circulares, indicadores de nivel verticales e instrumentos digitales
El proceso de lectura interpreta de forma integrada elementos visuales complejos como altura del líquido sedimentado, escalas, texto de unidades y múltiples agujas
- En el caso de la mirilla de nivel, estima la altura del líquido teniendo en cuenta la distorsión de la cámara
Mediante agentic vision realiza de forma gradual zoom, señalamiento y ejecución de código para lograr lecturas precisas a nivel sub-tick
Marco da Silva, vicepresidente de Boston Dynamics, comentó que esta función permite que Spot reconozca y responda a problemas del mundo real de forma completamente autónoma

Mejoras de seguridad

Gemini Robotics-ER 1.6 es evaluado como el modelo de robótica más seguro
- Presenta una mayor tasa de cumplimiento de las políticas de seguridad de Gemini que la generación anterior
Se fortaleció la capacidad de cumplir restricciones de seguridad física
- Ej.: restricciones como “no manipules líquidos” o “no levantes objetos de más de 20 kg” se reflejan desde la etapa de salida espacial (señalamiento)
En pruebas de reconocimiento de escenarios de seguridad en texto y video basadas en reportes reales de lesiones
- mejora de +6% en texto y +10% en video frente a Gemini 3.0 Flash
En la evaluación Safety Instruction Following, muestra una gran mejora frente a 1.5 y también aumenta la precisión de señalamiento

Colaboración con la comunidad de robótica

Google DeepMind impulsa la colaboración con la comunidad de robótica para seguir mejorando las capacidades de Gemini Robotics-ER
- Si existen limitaciones en un campo de aplicación específico, solicita compartir casos fallidos enviando 10 a 50 imágenes etiquetadas
- Con ello busca fortalecer la robustez de las capacidades de razonamiento en futuras versiones
Gemini Robotics-ER 1.6 puede probarse de inmediato en Google AI Studio

1 comentarios

GN⁺ 14 일 전

Comentarios en Hacker News

Da la impresión de que cada vez estamos más cerca de llegar al nivel de imitar el comportamiento humano o animal
Si se pudiera montar sobre los modelos generativos un patrón de orquestación que funcione como un cerebro, y si la velocidad de razonamiento fuera lo bastante rápida, parecería posible hacer muchas más cosas
Por ejemplo, generar y ejecutar un script de Python para leer un indicador hoy es lento, pero si fuera 100 a 1000 veces más rápido, parecería posible crear un ciclo en el que el modelo tome fotos, simule el futuro y tome decisiones por sí mismo
- Taalas está experimentando con implementar el modelo directamente en el chip para lograr inferencia ultrarrápida
  Sin embargo, como el modelo que usan es un Llama antiguo, la calidad es baja, pero si realmente escala, sería algo impresionante
- Taalas mostró que al convertir un LLM en un ASIC puede generar rápidamente más de 10 mil tokens
  Creo que al final es solo cuestión de tiempo
- Me pregunto si realmente vale la pena como objetivo imitar el comportamiento humano
  Los humanos son un producto evolutivo de la caza y la fabricación de herramientas, pero la automatización industrial real ha avanzado no con formas humanoides, sino con formas prácticas como R2D2
  Los robots domésticos también probablemente se parecerán más a eso
- Es una broma sobre qué pasaría si metes una “imagen slop” en una “máquina slop” y sale “slop²”
Imagino qué pasaría si preparas un terreno, piernas de robot, brazos, baterías, GPU y paneles solares,
y luego le das el prompt: “administra esta tierra y cultiva verduras”
- Todavía no se sabe el resultado, pero el prompt tradicional era “creced y multiplicaos”
- “Administra esta tierra” también podría significar el manejo de incendios a pequeña escala que los pueblos originarios de California practicaron durante miles de años
  El satoyama de Japón, la rotación de cultivos en África y la agricultura en curvas de nivel en Rusia muestran que cada región tenía sus propios métodos
  En última instancia, se enfatiza que la forma de cuidar la tierra depende de la localidad y los objetivos
- Me da curiosidad cómo van realmente experimentos como Proof of Corn
- Es una broma de “¡se acabó! ahora todo el planeta se convirtió en un huerto de verduras”
Google y Boston Dynamics están desarrollando modelos en colaboración,
y ahora Hyundai, tras adquirir Boston Dynamics, intenta desplegar robots en la automatización de fábricas
Pensé que estaría bien tener un software que tome una foto de un manómetro con una cámara y lo registre en una gráfica
Me pregunto si existe algo así para consumidores
- Si se lo pides a Claude, te lo puede hacer de una sola vez, incluso con dashboard de Home Assistant
- Me pregunto cuál sería la reacción de los funcionarios si aparecieran cámaras en los medidores cerca de la casa
- Basta con echar un vistazo a OpenCV
- También se puede con Frigate u Openclaw, aunque el primero es excesivo y el segundo un poco menos excesivo
Me pregunto si realmente tiene sentido que un robot lea instrumentos analógicos
¿No sería mejor simplemente cambiarlos por sensores digitales?
- Pero en la práctica, reemplazarlos implica aprobación de ingeniería, parada de planta, cableado, integración con SCADA y mucho más: los costos y procedimientos son enormes
  No es una comparación simple, y es fácil subestimar la complejidad de estos cambios
- En vez de detener el equipo y reemplazarlo, instalar una cámara IoT puede ser mucho más barato y confiable
  Aquí aplica el principio de “si no está roto, no lo arregles”
Creo que esto encajaría perfecto con mi sistema de “LLMs can control robots over MCP”
Como los LLM escriben bien código, quiero aprovechar esa capacidad
Planeo probarlo con el robot grande que compré recientemente
Post relacionado
- Me recordó un video sobre Google PaLM-E que vi hace unas dos semanas
  Era una arquitectura que combinaba un modelo de control robótico con un LLM mediante una attention layer
Lo que más me daba curiosidad era la parte de la latencia
En algunas tareas de percepción es mejor que los modelos frontier de visión, pero para robótica importa el rendimiento en Hz
Supongo que debe ser lento
- Lo probé en AI Studio y tiene un rendimiento de percepción al nivel de 3.1 Pro, pero es mucho más rápido
  “Piensa” unos segundos y da el resultado
  En cosas como contar patas de animales o leer relojes analógicos, la relación rendimiento/eficiencia del modelo fue muy alta
Me parece interesante la expresión “el modelo robótico más seguro”
Gemini Robotics-ER 1.6 cumple mejor las políticas de seguridad que la generación anterior,
pero todavía no está en una etapa completamente comercial, y parece realista enfocarlo como una meta de seguridad más que como algo ya resuelto
Puede que la IA para robots tenga modelos internos al nivel de GPT-2 o GPT-3,
pero creo que es difícil publicarlos porque fallar en entornos cotidianos sería crítico
Por ejemplo, romper aunque sea un solo plato en el lavavajillas se vería como un gran problema
- Vi Bicentennial Man (1999) este fin de semana, y la escena del lavavajillas me dejó una impresión fuerte
  Fue una buena película para ver en este momento
- Tal vez romper un plato no sea un problema tan grande
  Los primeros Roomba también eran un desastre bastante seguido, pero el mercado los aceptó y al final fueron mejorando
  Creo que es importante entrar primero al mercado recopilando datos, aunque no sea perfecto
- Yo también he roto muchos platos en el lavavajillas
  No existe un sistema perfecto
- Yo, siendo humano, también rompo platos dos veces al mes
  Si un robot lo hace mejor que yo, en realidad sería una mejora
- En robótica todavía faltan datos a escala de internet
  No me parece honesto afirmar que ya existe un modelo al nivel de GPT
Estoy pensando si debo seguir usando el modelo actual
hasta que Google lance oficialmente Gemini Flash 3.1

Gemini Robotics-ER 1.6: razonamiento corporal mejorado

Resumen de Gemini Robotics-ER 1.6

Funciones principales y mejoras de rendimiento

Pointing (señalamiento): base del razonamiento espacial

Detección de éxito (Success Detection): motor clave de la autonomía

Lectura de instrumentos (Instrument Reading): razonamiento visual en entornos reales

Mejoras de seguridad

Colaboración con la comunidad de robótica

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News