- Modelo VLA (visión-lenguaje-acción) de propósito general optimizado para ejecutarse directamente en robots
- Ofrece rápida adaptación a tareas y destreza general, y funciona localmente sin conexión a internet para garantizar baja latencia y robustez
- Requiere recursos de cómputo mínimos y cuenta con capacidad de manipulación precisa basada en robots de dos brazos y cambio rápido entre tareas
- Los desarrolladores pueden probarlo rápidamente en sus propios entornos con el Gemini Robotics SDK, y lograr adaptación veloz a tareas incluso con solo 50 a 100 demostraciones pequeñas
- Muestra mejor generalización y rendimiento de adaptación que otros modelos on-device, y ejecuta de forma eficiente instrucciones complejas o tareas nuevas
- Aplica principios de seguridad y desarrollo responsable, e incorpora mecanismos para minimizar riesgos y recoger retroalimentación sobre el entorno real y el impacto social
We’re introducing an efficient, on-device robotics model with general-purpose dexterity and fast task adaptation
- Gemini Robotics On-Device es un modelo VLA (visión-lenguaje-acción) de alta eficiencia diseñado para ejecutarse directamente en dispositivos robóticos locales
- Lleva al entorno físico real las capacidades de razonamiento multimodal y la comprensión del mundo real de Gemini Robotics, presentado en marzo
-
Fortalezas del modelo on-device
- Puede operar de forma independiente sin red, lo que le da ventaja en entornos que requieren baja latencia o tienen conectividad inestable
- Está optimizado para entornos locales, lo que permite ejecutar tareas en tiempo real con rapidez
- Cuenta con diversas capacidades de generalización visual, semántica y de acción
- Puede realizar tareas de manipulación precisa con robots de dos brazos (abrir un cierre, doblar ropa, etc.)
- Puede comprender instrucciones en lenguaje natural y ejecutar tareas complejas por etapas
El SDK permite una aplicación y personalización sencillas
- Mediante el Gemini Robotics SDK, los desarrolladores pueden probar el modelo en sus propios entornos, usar el simulador físico MuJoCo para hacer pruebas y aplicarlo a distintas tareas
- Es posible adaptarse rápidamente a nuevos dominios con solo 50 a 100 demostraciones pequeñas
Model capabilities and performance
- Gemini Robotics On-Device fue diseñado para robots de dos brazos con recursos de cómputo mínimos
- Está optimizado para experimentación rápida, manipulación basada en destreza, ejecución local e inferencia de baja latencia
- Reconoce comandos en lenguaje natural y realiza directamente manipulaciones complejas como abrir un cierre o doblar ropa
- Ofrece mejor versatilidad y generalización que los modelos on-device existentes, y procesa eficazmente instrucciones complejas de múltiples pasos
- Si se requiere mayor rendimiento o un entorno sin restricciones, también está disponible el modelo Gemini Robotics basado en servidor
Adaptable to new tasks, generalizable across embodiments
- Gemini Robotics On-Device es el primer modelo VLA que permite fine-tuning
- Se adapta rápidamente a tareas nuevas con solo 50 a 100 demostraciones, y muestra mejor rendimiento de adaptación que modelos competidores en tareas de destreza de distintas dificultades (cerrar un cierre, sacar una tarjeta, verter aderezo, etc.)
- Aunque fue entrenado para un robot específico (ALOHA), puede ampliarse mediante entrenamiento adicional a robots de distintas formas, como Franka FR3 y Apollo humanoid
- También puede manejar distintas instrucciones, objetos nuevos y tareas industriales complejas (como ensamblaje de correas)
Responsible development and safety
- El modelo fue desarrollado con base en los AI Principles y un marco integral de seguridad
- Mediante [Live API] y otros recursos, asegura la seguridad semántica y de contenido, y refuerza la seguridad en la operación real al integrarse con controladores de seguridad de bajo nivel
- Evalúa riesgos mediante distintos sistemas de evaluación, como Semantic Safety Benchmark y Red-Teaming
- Un equipo dedicado (Responsible Development & Innovation, RSC) realiza de forma continua evaluaciones del impacto social y recopila retroalimentación
- Se lanzó anticipadamente a un grupo de testers de confianza para recopilar evaluaciones iniciales de usabilidad y seguridad
Accelerating innovation in robotics
- Gemini Robotics On-Device busca ayudar a la comunidad de robótica a superar problemas de latencia y conectividad al ofrecer un modelo de IA general y adaptable
- Se espera que acelere la innovación gracias a su rápida implementación mediante SDK y su capacidad de adaptación a tareas
- Es posible acceder al modelo y al SDK a través del Trusted Tester Program
- Amplía la aplicación de la IA al mundo físico y presenta una visión para liderar el futuro de la robótica
1 comentarios
Opiniones de Hacker News
Tengo una visión optimista sobre la robótica humanoide, pero me genera dudas el tema de la confiabilidad. Los brazos, piernas y manos humanas son un sistema asombroso que se recupera por sí solo aunque sufra desgaste natural al estar tocando el mundo constantemente
Los robots industriales son extremadamente buenos en confiabilidad. Muchas veces tienen un MTBF (tiempo medio entre fallas) de más de 100,000 horas. Lo importante es que los robots industriales están diseñados para operar sin fallar el mayor tiempo posible y así aumentar la rentabilidad. Empresas alemanas y japonesas priorizaron la confiabilidad y desarrollaron actuadores eléctricos, dominando el mercado de robots industriales. En el pasado, los robots hidráulicos de Cincinnati Millicron en EE. UU. eran potentes, pero perdieron competitividad por su menor confiabilidad. Aun así, también existe una visión escéptica de que las manos humanoides, al tener muchas piezas pequeñas que deben soportar grandes fuerzas, difícilmente alcanzarán la confiabilidad de un robot industrial enlace relacionado
Pensar en las posibilidades del futuro cercano resulta muy interesante, o incluso un poco inquietante. Antes pensaba que se concentrarían en propósitos específicos (por ejemplo, un robot solo para limpieza), pero en realidad parece que, cuando estén listas, se usarán de forma muy general. Harán falta muchos sensores y motores, pero es interesante que, comparado con los autos autónomos, el riesgo legal será menor y también requerirá menos recursos
Creo que también sería posible que otros robots reemplacen automáticamente las piezas consumibles
Pienso que con más investigación en ciencia de materiales también se podría resolver este problema. Si se combina con servos de buena respuesta pero de bajo torque, también lo veo como un problema solucionable
Me parece interesante cómo los robots irían cambiando de manera individual y "distinta" con el tiempo. Por ejemplo, en lugares con ambientes hostiles, como robots mineros, las piezas pueden contaminarse mucho con polvo, desgastarse por todos lados o incluso doblarse por caída de rocas. Aunque otro robot haga una reparación temporal, con el paso del tiempo todos los robots probablemente terminarán volviéndose un poco distintos entre sí. Igual que en el mantenimiento de aviones comerciales, donde las reparaciones se hacen de forma única según cada choque o daño, quizá reciclarlos sea una solución más fácil para los robots
Me pregunto si es fácil entrar al "trusted tester program" y si también ofrecen módulos para usar el SDK fácilmente
Me pregunto en qué hardware corre el SDK, y si funciona incluso en una Raspberry Pi reciente
Según la publicación del blog, se necesita como mínimo una NVIDIA Jetson Orin con 8GB de RAM, y está optimizado para los módulos Jetson AGX Orin (64GB) y Orin NX (16GB)
Se menciona que uno de los contribuidores del proyecto publicó en x que corre en una tarjeta gráfica 4090 enlace relacionado en x
En esencia, este sistema puede verse como un LLM multimodal (modelo de lenguaje de gran escala). Modelos pequeños como SmolVLA (0.5B parámetros) son rápidos y eficientes para tareas específicas, mientras que OpenVLA (Llama2 7B finetune) es un modelo grande usado para tareas más generales. Incluso con una Raspberry Pi se pueden correr algunos modelos de propósito especial, y para modelos más generales bastaría hardware de consumo de alto rendimiento
El enlace de MuJoCo en realidad apunta a github.com/google-deepmind/aloha_sim
mujoco_menagerieincluye modelos XML MJCF de MuJoCo de varios robots google-deepmind/mujoco_menagerie / modelo alohaMe da curiosidad la arquitectura del modelo, y supongo que será muy distinta de un LLM; si alguien tiene un enlace que explique en detalle la arquitectura VLA, que lo comparta
Es seguro que estas tecnologías inevitablemente también se usarán como máquinas de guerra. La autonomía on-device es ideal para evitar poder centralizado o rastreo de responsabilidad. A diferencia de un operador de drones, tampoco se puede acusar a una persona de crímenes de guerra. Los contratos militares son tan grandes que es difícil resistirse, y la eliminación del trabajo duro se está convirtiendo en una eliminación total del ser humano. Se ve venir con claridad un futuro de "AI-Powered Automation for Every Decision" en el que desaparece la vida humana rentable palantir.com
Boston Dynamics, empresa originada en el entorno de MIT y luego adquirida por Google, prometió que no militarizaría sus robots, pero en la práctica, por sus vínculos con DARPA, el Departamento de Defensa de EE. UU. y otras inversiones militares, es muy difícil confiar en ello
Prácticamente toda tecnología útil tiene aplicaciones militares. No entiendo por qué esto sería un tema tan polémico
Me parece muy difícil que este robot pueda competir con drones en un campo de batalla. Probablemente cueste tanto como 1000 drones autónomos y requiera más de 100 veces el tiempo y los recursos. Los drones ya demostraron en campos de batalla reales (por ejemplo, Ucrania) que son pequeños y muy efectivos, y por muy ágil que llegue a ser el movimiento, escapar de un dron explosivo sería difícil. Aunque un Terminator lleve una escopeta, sería fácil desplegar 5 drones por cada uno, y hasta parece posible que esos drones los fabrique otro robot autónomo
Impresiona ese patrón de Google de presentar discretamente productos innovadores y luego olvidarse de ellos enseguida. Suben solo una publicación de blog sin una gran campaña de marketing, circula un poco en la comunidad tech y luego desaparece, y unos años después uno termina preguntándose: "¿qué habrá pasado con eso?". Pero este producto se ve genial, así que ojalá alguien arme una startup interesante con esto
Voy a tomarme un café mientras espero a que llegue una respuesta desde la API
Creo que la única forma de evitar que un robot haga jailbreak y termine robando un banco sería mover la GPU a una nube privada de GPU seguras SOTA
Me pregunto si habrá guardrails tipo Three Laws of Robotics para evitar que un robot se vuelva loco mientras ejecuta prompts
Las tres leyes de la robótica fueron creadas como un mecanismo de conflicto en la ficción, así que sería problemático que un sistema real funcionara así. En la práctica, el diseño de seguridad de Gemini Robotics es de varias capas. El modelo razona sobre qué es seguro, el VLA propone opciones de ejecución y, al final, entra en acción un controlador de bajo nivel que incorpora funciones críticas de seguridad, como límites de velocidad o de fuerza
El término general para este tipo de investigación es Constitutional AI, y se está experimentando/citando en muchos VLA de robótica artículo relacionado
Considero que los guardrails que se aplican actualmente se parecen más a IEC 61508 (estándar internacional de seguridad funcional) que a tres leyes
También está el comentario de que existe código para apagar la energía
Opinión de que las tres leyes de la robótica, en la práctica, son reglas sin sentido