Cómo desarrolló Google el modelo Gemini Robotics
(blog.google)- Google DeepMind desarrolló Gemini Robotics, un modelo de IA multimodal de próxima generación para robots capaces de realizar tareas físicas
- El modelo es una versión de Gemini 2.0 ajustada con datos especializados para robótica, para que pueda realizar no solo texto, video y audio, sino también acciones reales
- El robot realiza diversas tareas como preparar ensalada, jugar tres en raya, hacer origami y empacar almuerzos
Casos de prueba reales y verificación de capacidades
- Se le solicitaron diversas tareas al robot de doble brazo ALOHA de investigación
- Ej.: meter un bolígrafo dentro de un zapato, hacer una clavada con un balón de básquetbol
- Aunque se trataba de objetos y tareas que el robot nunca había visto antes, entendió las solicitudes y las realizó con éxito en el primer intento
- A diferencia de los modelos existentes, puede entender y ejecutar instrucciones físicas complejas en lenguaje natural
Características clave de Gemini Robotics
- Cuenta con alta flexibilidad, capacidad de interacción y capacidad de generalización
- Puede adaptarse a nuevos objetos, entornos e instrucciones sin entrenamiento adicional
- Sienta las bases para implementar IA y robots como un único agente integrado
- Ofrece capacidades de percepción, juicio y acción similares a las humanas
Introducción de los modelos que lo componen
-
Gemini Robotics-ER (Embodied Reasoning):
- Basado en Gemini 2.0 Flash
- Genera y ejecuta código mediante reconocimiento de objetos, ubicación, predicción de trayectorias de movimiento y configuración de agarre
- Ya se está compartiendo con testers y socios de confianza
-
Gemini Robotics:
- Modelo integrado de visión-lenguaje-acción
- Puede comprender escenas, interactuar con el usuario y realizar tareas de múltiples pasos
- Registra rendimiento de destreza de nivel líder en el estado del arte incluso en tareas que requieren manipulación compleja y razonamiento espacial
Capacidades técnicas concretas
- Detección de objetos en 2D y 3D
- Función de pointing (señalamiento)
- Búsqueda de puntos correspondientes desde múltiples vistas
- Capacidad de manipulación aprovechando diversa información visual
Enfoque de entrenamiento y ventajas
- En lugar del enfoque industrial tradicional de entrenamiento repetitivo de una sola tarea, se eligió un aprendizaje amplio a través de tareas diversas
- Como resultado, la capacidad de generalización surge de manera natural
- Puede aplicarse a distintos tipos de robots
- Ej.: ALOHA (investigación), Apollo de Apptronik (robot humanoide)
Compatibilidad con diversas formas de robots
- Robots de distintas formas realizan diversas tareas, como empacar almuerzos, borrar pizarras y recoger objetos pequeños
- El punto clave es que un solo modelo puede adaptarse a varios robots
Visión a futuro
- Se espera que sea útil en sectores industriales que requieren tareas precisas o en entornos no adecuados para humanos
- También podría evolucionar hacia robots útiles en entornos centrados en las personas, como el hogar
- En la vida cotidiana, los robots podrían convertirse en otra interfaz con la IA
1 comentarios
Comentarios de Hacker News