Cómo desarrolló Google el modelo Gemini Robotics

(blog.google)

6 puntos por GN⁺ 2025-04-04 | 1 comentarios | Compartir por WhatsApp

Google DeepMind desarrolló Gemini Robotics, un modelo de IA multimodal de próxima generación para robots capaces de realizar tareas físicas
El modelo es una versión de Gemini 2.0 ajustada con datos especializados para robótica, para que pueda realizar no solo texto, video y audio, sino también acciones reales
El robot realiza diversas tareas como preparar ensalada, jugar tres en raya, hacer origami y empacar almuerzos

Casos de prueba reales y verificación de capacidades

Se le solicitaron diversas tareas al robot de doble brazo ALOHA de investigación
- Ej.: meter un bolígrafo dentro de un zapato, hacer una clavada con un balón de básquetbol
- Aunque se trataba de objetos y tareas que el robot nunca había visto antes, entendió las solicitudes y las realizó con éxito en el primer intento
A diferencia de los modelos existentes, puede entender y ejecutar instrucciones físicas complejas en lenguaje natural

Características clave de Gemini Robotics

Cuenta con alta flexibilidad, capacidad de interacción y capacidad de generalización
- Puede adaptarse a nuevos objetos, entornos e instrucciones sin entrenamiento adicional
Sienta las bases para implementar IA y robots como un único agente integrado
Ofrece capacidades de percepción, juicio y acción similares a las humanas

Introducción de los modelos que lo componen

Gemini Robotics-ER (Embodied Reasoning):
- Basado en Gemini 2.0 Flash
- Genera y ejecuta código mediante reconocimiento de objetos, ubicación, predicción de trayectorias de movimiento y configuración de agarre
- Ya se está compartiendo con testers y socios de confianza
Gemini Robotics:
- Modelo integrado de visión-lenguaje-acción
- Puede comprender escenas, interactuar con el usuario y realizar tareas de múltiples pasos
- Registra rendimiento de destreza de nivel líder en el estado del arte incluso en tareas que requieren manipulación compleja y razonamiento espacial

Capacidades técnicas concretas

Detección de objetos en 2D y 3D
Función de pointing (señalamiento)
Búsqueda de puntos correspondientes desde múltiples vistas
Capacidad de manipulación aprovechando diversa información visual

Enfoque de entrenamiento y ventajas

En lugar del enfoque industrial tradicional de entrenamiento repetitivo de una sola tarea, se eligió un aprendizaje amplio a través de tareas diversas
Como resultado, la capacidad de generalización surge de manera natural
Puede aplicarse a distintos tipos de robots
- Ej.: ALOHA (investigación), Apollo de Apptronik (robot humanoide)

Compatibilidad con diversas formas de robots

Robots de distintas formas realizan diversas tareas, como empacar almuerzos, borrar pizarras y recoger objetos pequeños
El punto clave es que un solo modelo puede adaptarse a varios robots

Visión a futuro

Se espera que sea útil en sectores industriales que requieren tareas precisas o en entornos no adecuados para humanos
También podría evolucionar hacia robots útiles en entornos centrados en las personas, como el hogar
En la vida cotidiana, los robots podrían convertirse en otra interfaz con la IA

1 comentarios

GN⁺ 2025-04-04

Comentarios de Hacker News

Pueden hacerlo, pero aun así el Gemini Assistant del teléfono Pixel sigue fallando al poner temporizadores o agregar cosas a la lista del súper. (Con Google Assistant sí funcionaba bien)
No hay ninguna explicación del "cómo", pero si esta función siquiera opera con una confiabilidad a medias, tendría un impacto como 100 veces mayor que ChatGPT
Los avances en IA y robótica son muy emocionantes. Con sistemas complejos como Gemini, las empresas probablemente tendrán que depender de equipos especializados para hacer realidad estas innovaciones
- Al subcontratar ciertos roles, como investigación en IA o ingeniería robótica, las empresas pueden incorporar talento de primer nivel sin la carga de contratar personal de tiempo completo
- Es interesante ver cómo la subcontratación puede complementar la investigación y desarrollo en industrias de punta como la robótica
- Me da curiosidad cómo cambiará la industria, especialmente en términos de escalabilidad y velocidad de salida al mercado
Al final, parece que alguien va a ayudar con las tareas del hogar
- Ah, qué bien. Solo que detrás de eso todo tiene fines militares, pero me gusta el intento de hacer que pensemos que nos van a doblar la ropa
"Recoge el balón de básquetbol y haz una clavada". El caso de uso matador que llevábamos tanto tiempo esperando :)
Aunque la tecnología robótica de Google (software y hardware) sea de vanguardia, me pregunto si realmente podrán convertirla en producto
- Se parece a cómo iban a la cabeza con los transformers, pero terminaron perdiendo toda su ventaja frente a ChatGPT
- Parece que hay algo en Google que no les permite pasar de la investigación al producto de manera efectiva
- Si crees que Waymo ya alcanzó hoy el ajuste producto-mercado, puede ser un buen contraejemplo, pero no puedo quitarme la sensación de que Google normalmente no logra sacar estas cosas al mercado, o si las saca, las abandona antes de que despeguen
- Me pregunto si alguien tiene opiniones firmes o alguna perspectiva sobre sus esfuerzos en robótica
Da miedo pensar en la posibilidad de que algún día estos robots se usen en la industria de defensa
- Si un robot puede entender una orden general como "guarda el borrador", imagina una orden como "elimina a todos los enemigos"
Solo por curiosidad, ¿qué haría si le ordenan matar a alguien? ¿Seguiría las leyes de la robótica?
¡Feliz Día de los Inocentes!

Cómo desarrolló Google el modelo Gemini Robotics

Casos de prueba reales y verificación de capacidades

Características clave de Gemini Robotics

Introducción de los modelos que lo componen

Capacidades técnicas concretas

Enfoque de entrenamiento y ventajas

Compatibilidad con diversas formas de robots

Visión a futuro

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News