- Introduce Gemini 2.0 en la robótica y presenta un modelo de visión-lenguaje-acción (VLA) y un modelo ER con comprensión espacial
- Google DeepMind ha venido avanzando en capacidades de razonamiento multimodal usando texto, imágenes, audio y video para resolver problemas complejos
- Sin embargo, estas capacidades hasta ahora se habían limitado al entorno digital
- Para que la IA sea útil en el mundo físico, necesita la capacidad de entender y reaccionar al entorno como un humano y realizar tareas de forma segura mediante el "razonamiento corporeizado (embodied reasoning)"
- En respuesta a esto, se presentan dos nuevos modelos
- Gemini Robotics: un modelo de visión-lenguaje-acción (VLA) basado en Gemini 2.0 que puede controlar robots directamente
- Gemini Robotics-ER: un modelo que ofrece una comprensión espacial mejorada y capacidad de control robótico
- Está desarrollando la próxima generación de robots humanoides en colaboración con Apptronik
- Está mejorando el rendimiento de los modelos en colaboración con un pequeño grupo de usuarios de prueba de confianza
Gemini Robotics: el modelo de visión-lenguaje-acción más avanzado
1. Capacidad de generalización (Generality)
- Puede adaptarse a situaciones nuevas y realizar diversas tareas
- Ofrece un rendimiento sobresaliente con objetos, instrucciones y entornos nuevos
- Según el informe técnico, el rendimiento de generalización mejora en más de 2 veces frente a modelos VLA existentes
2. Capacidad de interacción (Interactivity)
- Puede entender y responder a instrucciones en lenguaje natural
- Responde a distintos idiomas y a instrucciones cotidianas
- Puede reaccionar en tiempo real a cambios en el entorno y modificar sus acciones
- Aunque un objeto se deslice de la mano o cambie de posición, puede replanificar de inmediato y continuar la tarea
3. Destreza (Dexterity)
- Se refuerza su capacidad para realizar tareas delicadas
- Puede ejecutar tareas complejas de varios pasos (por ejemplo: origami, guardar snacks en una bolsa con cierre tipo zip, etc.)
4. Aplicable a múltiples tipos de robots (Multiple embodiments)
- Puede aplicarse fácilmente a distintas formas de robot
- Se confirmó su funcionamiento en robots basados en ALOHA 2 y Franka, así como en el robot humanoide Apollo
Gemini Robotics-ER: capacidad de comprensión espacial mejorada
- Refuerza de forma importante el reconocimiento espacial y el desempeño de detección 3D de Gemini 2.0
- Permite que el robot reconozca la ubicación de los objetos y los manipule de la forma adecuada
- Combina capacidad de generación de código → el robot puede crear en el momento nuevas maneras de realizar tareas
- La tasa de éxito mejora entre 2 y 3 veces frente a Gemini 2.0
- Ejemplo de demostración: reconoce el asa de una taza de café y se acerca por una ruta segura para levantarla
Estrategia para reforzar la seguridad en IA y robótica
- Se enfoca en resolver problemas de seguridad física de los robots
- Los robots aplican medidas de seguridad tradicionales como evitar colisiones, limitar la fuerza de contacto y mantener la estabilidad dinámica
- Gemini Robotics-ER evalúa si debe ejecutar una tarea cuando hay preocupaciones de seguridad y responde de forma apropiada
- Se lanza el nuevo dataset ASIMOV → con el objetivo de evaluar y mejorar la seguridad del comportamiento de los robots
- Colabora con comités internos de responsabilidad y seguridad, así como con expertos externos, para abordar cuestiones éticas
Principales socios y planes a futuro
- Desarrolla robots humanoides en colaboración con Apptronik
- Agile Robots, Agility Robots, Boston Dynamics y Enchanted Tools, entre otros, están probando Gemini Robotics-ER
- Planea seguir impulsando el desarrollo de la IA y la tecnología robótica
Enlaces relacionados
1 comentarios
Comentarios en Hacker News