Google DeepMind presenta Gemini Robotics

(deepmind.google)

4 puntos por GN⁺ 2025-03-13 | 1 comentarios | Compartir por WhatsApp

Introduce Gemini 2.0 en la robótica y presenta un modelo de visión-lenguaje-acción (VLA) y un modelo ER con comprensión espacial
Google DeepMind ha venido avanzando en capacidades de razonamiento multimodal usando texto, imágenes, audio y video para resolver problemas complejos
Sin embargo, estas capacidades hasta ahora se habían limitado al entorno digital
Para que la IA sea útil en el mundo físico, necesita la capacidad de entender y reaccionar al entorno como un humano y realizar tareas de forma segura mediante el "razonamiento corporeizado (embodied reasoning)"
En respuesta a esto, se presentan dos nuevos modelos
- Gemini Robotics: un modelo de visión-lenguaje-acción (VLA) basado en Gemini 2.0 que puede controlar robots directamente
- Gemini Robotics-ER: un modelo que ofrece una comprensión espacial mejorada y capacidad de control robótico
Está desarrollando la próxima generación de robots humanoides en colaboración con Apptronik
Está mejorando el rendimiento de los modelos en colaboración con un pequeño grupo de usuarios de prueba de confianza

Gemini Robotics: el modelo de visión-lenguaje-acción más avanzado

1. Capacidad de generalización (Generality)

Puede adaptarse a situaciones nuevas y realizar diversas tareas
Ofrece un rendimiento sobresaliente con objetos, instrucciones y entornos nuevos
Según el informe técnico, el rendimiento de generalización mejora en más de 2 veces frente a modelos VLA existentes

2. Capacidad de interacción (Interactivity)

Puede entender y responder a instrucciones en lenguaje natural
Responde a distintos idiomas y a instrucciones cotidianas
Puede reaccionar en tiempo real a cambios en el entorno y modificar sus acciones
Aunque un objeto se deslice de la mano o cambie de posición, puede replanificar de inmediato y continuar la tarea

3. Destreza (Dexterity)

Se refuerza su capacidad para realizar tareas delicadas
Puede ejecutar tareas complejas de varios pasos (por ejemplo: origami, guardar snacks en una bolsa con cierre tipo zip, etc.)

4. Aplicable a múltiples tipos de robots (Multiple embodiments)

Puede aplicarse fácilmente a distintas formas de robot
Se confirmó su funcionamiento en robots basados en ALOHA 2 y Franka, así como en el robot humanoide Apollo

Gemini Robotics-ER: capacidad de comprensión espacial mejorada

Refuerza de forma importante el reconocimiento espacial y el desempeño de detección 3D de Gemini 2.0
Permite que el robot reconozca la ubicación de los objetos y los manipule de la forma adecuada
Combina capacidad de generación de código → el robot puede crear en el momento nuevas maneras de realizar tareas
La tasa de éxito mejora entre 2 y 3 veces frente a Gemini 2.0
Ejemplo de demostración: reconoce el asa de una taza de café y se acerca por una ruta segura para levantarla

Estrategia para reforzar la seguridad en IA y robótica

Se enfoca en resolver problemas de seguridad física de los robots
Los robots aplican medidas de seguridad tradicionales como evitar colisiones, limitar la fuerza de contacto y mantener la estabilidad dinámica
Gemini Robotics-ER evalúa si debe ejecutar una tarea cuando hay preocupaciones de seguridad y responde de forma apropiada
Se lanza el nuevo dataset ASIMOV → con el objetivo de evaluar y mejorar la seguridad del comportamiento de los robots
Colabora con comités internos de responsabilidad y seguridad, así como con expertos externos, para abordar cuestiones éticas

Principales socios y planes a futuro

Desarrolla robots humanoides en colaboración con Apptronik
Agile Robots, Agility Robots, Boston Dynamics y Enchanted Tools, entre otros, están probando Gemini Robotics-ER
Planea seguir impulsando el desarrollo de la IA y la tecnología robótica

Enlaces relacionados

1 comentarios

GN⁺ 2025-03-13

Comentarios en Hacker News

Hay un enlace a una lista de reproducción completa con 20 demos en video en YouTube
Me pregunto si nadie recuerda que antes hubo demos impresionantes de Google Gemini que resultaron estar manipuladas
Pensaba que las leyes de la robótica de Asimov eran un recurso interesante de ciencia ficción, pero muy alejado de la computación real
- Al parecer, Asimov se adelantó a su tiempo y ya estaba escribiendo prompts para LLM
Si clasificar la basura se vuelve más fácil y rápido, se podría mejorar la eficiencia del reciclaje 100 veces
- Ya hay lugares que hacen eso, pero hay muchas tareas simples en las que los robots podrían mejorar el mundo
Me impresionó la escena al final del video principal donde el robot coloca una banda circular en una polea
- Seguramente habrá muchos comportamientos como ese en los datos de entrenamiento, pero se sintió más intuitivo que doblar camisas o clasificar objetos
- Parece que la función de reproducir/pausar automáticamente el video y el desplazamiento en la página está rota
Quiero un dispositivo que funcione como traductor bidireccional en tiempo real
- Sería genial poder vivir allí sin perder tiempo aprendiendo alemán u otro idioma
- Sería increíble poder pedir comida y hacer trámites administrativos usando solo inglés
Cualquiera podrá pedir un brazo robótico desde China, instalarlo en su garaje y programarlo con texto como si fuera un LLM
- Es momento de pensar en grande
No estoy seguro de si el video representa el rendimiento real o si es una estrategia de marketing, pero es impresionante
- Me recuerda a los brazos robóticos de Iron Man 1
Cuando los robots sean lo bastante hábiles como para preparar comidas, será un punto de inflexión para el mercado laboral
- El modelo actual aún no llega a ese nivel, pero habrá que ver si la gran inversión en generación de datos sintéticos durante los próximos años lo acerca a eso
El problema de Google es que su negocio publicitario genera tantas ganancias que los demás productos pierden sentido
- Usarán lo que aprendan de los robots para aumentar los ingresos por publicidad

Google DeepMind presenta Gemini Robotics

Gemini Robotics: el modelo de visión-lenguaje-acción más avanzado

1. Capacidad de generalización (Generality)

2. Capacidad de interacción (Interactivity)

3. Destreza (Dexterity)

4. Aplicable a múltiples tipos de robots (Multiple embodiments)

Gemini Robotics-ER: capacidad de comprensión espacial mejorada

Estrategia para reforzar la seguridad en IA y robótica

Principales socios y planes a futuro

Enlaces relacionados

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News