5 puntos por GN⁺ 2025-06-26 | 1 comentarios | Compartir por WhatsApp
  • Modelo VLA (visión-lenguaje-acción) de propósito general optimizado para ejecutarse directamente en robots
  • Ofrece rápida adaptación a tareas y destreza general, y funciona localmente sin conexión a internet para garantizar baja latencia y robustez
  • Requiere recursos de cómputo mínimos y cuenta con capacidad de manipulación precisa basada en robots de dos brazos y cambio rápido entre tareas
  • Los desarrolladores pueden probarlo rápidamente en sus propios entornos con el Gemini Robotics SDK, y lograr adaptación veloz a tareas incluso con solo 50 a 100 demostraciones pequeñas
  • Muestra mejor generalización y rendimiento de adaptación que otros modelos on-device, y ejecuta de forma eficiente instrucciones complejas o tareas nuevas
  • Aplica principios de seguridad y desarrollo responsable, e incorpora mecanismos para minimizar riesgos y recoger retroalimentación sobre el entorno real y el impacto social

We’re introducing an efficient, on-device robotics model with general-purpose dexterity and fast task adaptation

  • Gemini Robotics On-Device es un modelo VLA (visión-lenguaje-acción) de alta eficiencia diseñado para ejecutarse directamente en dispositivos robóticos locales
  • Lleva al entorno físico real las capacidades de razonamiento multimodal y la comprensión del mundo real de Gemini Robotics, presentado en marzo
  • Fortalezas del modelo on-device

    • Puede operar de forma independiente sin red, lo que le da ventaja en entornos que requieren baja latencia o tienen conectividad inestable
    • Está optimizado para entornos locales, lo que permite ejecutar tareas en tiempo real con rapidez
    • Cuenta con diversas capacidades de generalización visual, semántica y de acción
    • Puede realizar tareas de manipulación precisa con robots de dos brazos (abrir un cierre, doblar ropa, etc.)
    • Puede comprender instrucciones en lenguaje natural y ejecutar tareas complejas por etapas

El SDK permite una aplicación y personalización sencillas

  • Mediante el Gemini Robotics SDK, los desarrolladores pueden probar el modelo en sus propios entornos, usar el simulador físico MuJoCo para hacer pruebas y aplicarlo a distintas tareas
  • Es posible adaptarse rápidamente a nuevos dominios con solo 50 a 100 demostraciones pequeñas

Model capabilities and performance

  • Gemini Robotics On-Device fue diseñado para robots de dos brazos con recursos de cómputo mínimos
  • Está optimizado para experimentación rápida, manipulación basada en destreza, ejecución local e inferencia de baja latencia
  • Reconoce comandos en lenguaje natural y realiza directamente manipulaciones complejas como abrir un cierre o doblar ropa
  • Ofrece mejor versatilidad y generalización que los modelos on-device existentes, y procesa eficazmente instrucciones complejas de múltiples pasos
  • Si se requiere mayor rendimiento o un entorno sin restricciones, también está disponible el modelo Gemini Robotics basado en servidor

Adaptable to new tasks, generalizable across embodiments

  • Gemini Robotics On-Device es el primer modelo VLA que permite fine-tuning
  • Se adapta rápidamente a tareas nuevas con solo 50 a 100 demostraciones, y muestra mejor rendimiento de adaptación que modelos competidores en tareas de destreza de distintas dificultades (cerrar un cierre, sacar una tarjeta, verter aderezo, etc.)
  • Aunque fue entrenado para un robot específico (ALOHA), puede ampliarse mediante entrenamiento adicional a robots de distintas formas, como Franka FR3 y Apollo humanoid
  • También puede manejar distintas instrucciones, objetos nuevos y tareas industriales complejas (como ensamblaje de correas)

Responsible development and safety

  • El modelo fue desarrollado con base en los AI Principles y un marco integral de seguridad
  • Mediante [Live API] y otros recursos, asegura la seguridad semántica y de contenido, y refuerza la seguridad en la operación real al integrarse con controladores de seguridad de bajo nivel
  • Evalúa riesgos mediante distintos sistemas de evaluación, como Semantic Safety Benchmark y Red-Teaming
  • Un equipo dedicado (Responsible Development & Innovation, RSC) realiza de forma continua evaluaciones del impacto social y recopila retroalimentación
  • Se lanzó anticipadamente a un grupo de testers de confianza para recopilar evaluaciones iniciales de usabilidad y seguridad

Accelerating innovation in robotics

  • Gemini Robotics On-Device busca ayudar a la comunidad de robótica a superar problemas de latencia y conectividad al ofrecer un modelo de IA general y adaptable
  • Se espera que acelere la innovación gracias a su rápida implementación mediante SDK y su capacidad de adaptación a tareas
  • Es posible acceder al modelo y al SDK a través del Trusted Tester Program
  • Amplía la aplicación de la IA al mundo físico y presenta una visión para liderar el futuro de la robótica

1 comentarios

 
GN⁺ 2025-06-26
Opiniones de Hacker News
  • Tengo una visión optimista sobre la robótica humanoide, pero me genera dudas el tema de la confiabilidad. Los brazos, piernas y manos humanas son un sistema asombroso que se recupera por sí solo aunque sufra desgaste natural al estar tocando el mundo constantemente

    • Los robots industriales son extremadamente buenos en confiabilidad. Muchas veces tienen un MTBF (tiempo medio entre fallas) de más de 100,000 horas. Lo importante es que los robots industriales están diseñados para operar sin fallar el mayor tiempo posible y así aumentar la rentabilidad. Empresas alemanas y japonesas priorizaron la confiabilidad y desarrollaron actuadores eléctricos, dominando el mercado de robots industriales. En el pasado, los robots hidráulicos de Cincinnati Millicron en EE. UU. eran potentes, pero perdieron competitividad por su menor confiabilidad. Aun así, también existe una visión escéptica de que las manos humanoides, al tener muchas piezas pequeñas que deben soportar grandes fuerzas, difícilmente alcanzarán la confiabilidad de un robot industrial enlace relacionado

    • Pensar en las posibilidades del futuro cercano resulta muy interesante, o incluso un poco inquietante. Antes pensaba que se concentrarían en propósitos específicos (por ejemplo, un robot solo para limpieza), pero en realidad parece que, cuando estén listas, se usarán de forma muy general. Harán falta muchos sensores y motores, pero es interesante que, comparado con los autos autónomos, el riesgo legal será menor y también requerirá menos recursos

    • Creo que también sería posible que otros robots reemplacen automáticamente las piezas consumibles

    • Pienso que con más investigación en ciencia de materiales también se podría resolver este problema. Si se combina con servos de buena respuesta pero de bajo torque, también lo veo como un problema solucionable

    • Me parece interesante cómo los robots irían cambiando de manera individual y "distinta" con el tiempo. Por ejemplo, en lugares con ambientes hostiles, como robots mineros, las piezas pueden contaminarse mucho con polvo, desgastarse por todos lados o incluso doblarse por caída de rocas. Aunque otro robot haga una reparación temporal, con el paso del tiempo todos los robots probablemente terminarán volviéndose un poco distintos entre sí. Igual que en el mantenimiento de aviones comerciales, donde las reparaciones se hacen de forma única según cada choque o daño, quizá reciclarlos sea una solución más fácil para los robots

  • Me pregunto si es fácil entrar al "trusted tester program" y si también ofrecen módulos para usar el SDK fácilmente

    • Indican que hay un botón de registro al final de ese artículo
  • Me pregunto en qué hardware corre el SDK, y si funciona incluso en una Raspberry Pi reciente

    • Según la publicación del blog, se necesita como mínimo una NVIDIA Jetson Orin con 8GB de RAM, y está optimizado para los módulos Jetson AGX Orin (64GB) y Orin NX (16GB)

    • Se menciona que uno de los contribuidores del proyecto publicó en x que corre en una tarjeta gráfica 4090 enlace relacionado en x

    • En esencia, este sistema puede verse como un LLM multimodal (modelo de lenguaje de gran escala). Modelos pequeños como SmolVLA (0.5B parámetros) son rápidos y eficientes para tareas específicas, mientras que OpenVLA (Llama2 7B finetune) es un modelo grande usado para tareas más generales. Incluso con una Raspberry Pi se pueden correr algunos modelos de propósito especial, y para modelos más generales bastaría hardware de consumo de alto rendimiento

  • El enlace de MuJoCo en realidad apunta a github.com/google-deepmind/aloha_sim

  • Me da curiosidad la arquitectura del modelo, y supongo que será muy distinta de un LLM; si alguien tiene un enlace que explique en detalle la arquitectura VLA, que lo comparta

    • En realidad, creo que la estructura es muy cercana a la de un LLM. Es un modelo VLA de "Visual Language Action" y está basado en Gemini 2.0. Como Gemini 2.0 soporta lenguaje, audio y video de forma nativa, se puede suponer que también puede incluir datos de "action". Probablemente sea una estructura en la que se agregaron datos de acciones durante la etapa de output fine-tuning. Veo este tipo de LLM multimodal nativo como el que pronto hará el papel de "cerebro"
  • Es seguro que estas tecnologías inevitablemente también se usarán como máquinas de guerra. La autonomía on-device es ideal para evitar poder centralizado o rastreo de responsabilidad. A diferencia de un operador de drones, tampoco se puede acusar a una persona de crímenes de guerra. Los contratos militares son tan grandes que es difícil resistirse, y la eliminación del trabajo duro se está convirtiendo en una eliminación total del ser humano. Se ve venir con claridad un futuro de "AI-Powered Automation for Every Decision" en el que desaparece la vida humana rentable palantir.com

    • Boston Dynamics, empresa originada en el entorno de MIT y luego adquirida por Google, prometió que no militarizaría sus robots, pero en la práctica, por sus vínculos con DARPA, el Departamento de Defensa de EE. UU. y otras inversiones militares, es muy difícil confiar en ello

    • Prácticamente toda tecnología útil tiene aplicaciones militares. No entiendo por qué esto sería un tema tan polémico

    • Me parece muy difícil que este robot pueda competir con drones en un campo de batalla. Probablemente cueste tanto como 1000 drones autónomos y requiera más de 100 veces el tiempo y los recursos. Los drones ya demostraron en campos de batalla reales (por ejemplo, Ucrania) que son pequeños y muy efectivos, y por muy ágil que llegue a ser el movimiento, escapar de un dron explosivo sería difícil. Aunque un Terminator lleve una escopeta, sería fácil desplegar 5 drones por cada uno, y hasta parece posible que esos drones los fabrique otro robot autónomo

  • Impresiona ese patrón de Google de presentar discretamente productos innovadores y luego olvidarse de ellos enseguida. Suben solo una publicación de blog sin una gran campaña de marketing, circula un poco en la comunidad tech y luego desaparece, y unos años después uno termina preguntándose: "¿qué habrá pasado con eso?". Pero este producto se ve genial, así que ojalá alguien arme una startup interesante con esto

    • El objetivo principal de proyectos como este en Google es frenar a los reguladores. No buscan monetizar estos productos, sino simplemente quemar algo de dinero y seguir adelante, y esa libertad solo es posible porque son un monopolio
  • Voy a tomarme un café mientras espero a que llegue una respuesta desde la API

  • Creo que la única forma de evitar que un robot haga jailbreak y termine robando un banco sería mover la GPU a una nube privada de GPU seguras SOTA

  • Me pregunto si habrá guardrails tipo Three Laws of Robotics para evitar que un robot se vuelva loco mientras ejecuta prompts

    • Las tres leyes de la robótica fueron creadas como un mecanismo de conflicto en la ficción, así que sería problemático que un sistema real funcionara así. En la práctica, el diseño de seguridad de Gemini Robotics es de varias capas. El modelo razona sobre qué es seguro, el VLA propone opciones de ejecución y, al final, entra en acción un controlador de bajo nivel que incorpora funciones críticas de seguridad, como límites de velocidad o de fuerza

    • El término general para este tipo de investigación es Constitutional AI, y se está experimentando/citando en muchos VLA de robótica artículo relacionado

    • Considero que los guardrails que se aplican actualmente se parecen más a IEC 61508 (estándar internacional de seguridad funcional) que a tres leyes

    • También está el comentario de que existe código para apagar la energía

    • Opinión de que las tres leyes de la robótica, en la práctica, son reglas sin sentido