4 puntos por GN⁺ 2025-03-13 | 1 comentarios | Compartir por WhatsApp
  • Introduce Gemini 2.0 en la robótica y presenta un modelo de visión-lenguaje-acción (VLA) y un modelo ER con comprensión espacial
  • Google DeepMind ha venido avanzando en capacidades de razonamiento multimodal usando texto, imágenes, audio y video para resolver problemas complejos
  • Sin embargo, estas capacidades hasta ahora se habían limitado al entorno digital
  • Para que la IA sea útil en el mundo físico, necesita la capacidad de entender y reaccionar al entorno como un humano y realizar tareas de forma segura mediante el "razonamiento corporeizado (embodied reasoning)"
  • En respuesta a esto, se presentan dos nuevos modelos
    • Gemini Robotics: un modelo de visión-lenguaje-acción (VLA) basado en Gemini 2.0 que puede controlar robots directamente
    • Gemini Robotics-ER: un modelo que ofrece una comprensión espacial mejorada y capacidad de control robótico
  • Está desarrollando la próxima generación de robots humanoides en colaboración con Apptronik
  • Está mejorando el rendimiento de los modelos en colaboración con un pequeño grupo de usuarios de prueba de confianza

Gemini Robotics: el modelo de visión-lenguaje-acción más avanzado

1. Capacidad de generalización (Generality)

  • Puede adaptarse a situaciones nuevas y realizar diversas tareas
  • Ofrece un rendimiento sobresaliente con objetos, instrucciones y entornos nuevos
  • Según el informe técnico, el rendimiento de generalización mejora en más de 2 veces frente a modelos VLA existentes

2. Capacidad de interacción (Interactivity)

  • Puede entender y responder a instrucciones en lenguaje natural
  • Responde a distintos idiomas y a instrucciones cotidianas
  • Puede reaccionar en tiempo real a cambios en el entorno y modificar sus acciones
  • Aunque un objeto se deslice de la mano o cambie de posición, puede replanificar de inmediato y continuar la tarea

3. Destreza (Dexterity)

  • Se refuerza su capacidad para realizar tareas delicadas
  • Puede ejecutar tareas complejas de varios pasos (por ejemplo: origami, guardar snacks en una bolsa con cierre tipo zip, etc.)

4. Aplicable a múltiples tipos de robots (Multiple embodiments)

  • Puede aplicarse fácilmente a distintas formas de robot
  • Se confirmó su funcionamiento en robots basados en ALOHA 2 y Franka, así como en el robot humanoide Apollo

Gemini Robotics-ER: capacidad de comprensión espacial mejorada

  • Refuerza de forma importante el reconocimiento espacial y el desempeño de detección 3D de Gemini 2.0
  • Permite que el robot reconozca la ubicación de los objetos y los manipule de la forma adecuada
  • Combina capacidad de generación de código → el robot puede crear en el momento nuevas maneras de realizar tareas
  • La tasa de éxito mejora entre 2 y 3 veces frente a Gemini 2.0
  • Ejemplo de demostración: reconoce el asa de una taza de café y se acerca por una ruta segura para levantarla

Estrategia para reforzar la seguridad en IA y robótica

  • Se enfoca en resolver problemas de seguridad física de los robots
  • Los robots aplican medidas de seguridad tradicionales como evitar colisiones, limitar la fuerza de contacto y mantener la estabilidad dinámica
  • Gemini Robotics-ER evalúa si debe ejecutar una tarea cuando hay preocupaciones de seguridad y responde de forma apropiada
  • Se lanza el nuevo dataset ASIMOV → con el objetivo de evaluar y mejorar la seguridad del comportamiento de los robots
  • Colabora con comités internos de responsabilidad y seguridad, así como con expertos externos, para abordar cuestiones éticas

Principales socios y planes a futuro

  • Desarrolla robots humanoides en colaboración con Apptronik
  • Agile Robots, Agility Robots, Boston Dynamics y Enchanted Tools, entre otros, están probando Gemini Robotics-ER
  • Planea seguir impulsando el desarrollo de la IA y la tecnología robótica

Enlaces relacionados

1 comentarios

 
GN⁺ 2025-03-13
Comentarios en Hacker News
  • Hay un enlace a una lista de reproducción completa con 20 demos en video en YouTube
  • Me pregunto si nadie recuerda que antes hubo demos impresionantes de Google Gemini que resultaron estar manipuladas
  • Pensaba que las leyes de la robótica de Asimov eran un recurso interesante de ciencia ficción, pero muy alejado de la computación real
    • Al parecer, Asimov se adelantó a su tiempo y ya estaba escribiendo prompts para LLM
  • Si clasificar la basura se vuelve más fácil y rápido, se podría mejorar la eficiencia del reciclaje 100 veces
    • Ya hay lugares que hacen eso, pero hay muchas tareas simples en las que los robots podrían mejorar el mundo
  • Me impresionó la escena al final del video principal donde el robot coloca una banda circular en una polea
    • Seguramente habrá muchos comportamientos como ese en los datos de entrenamiento, pero se sintió más intuitivo que doblar camisas o clasificar objetos
    • Parece que la función de reproducir/pausar automáticamente el video y el desplazamiento en la página está rota
  • Quiero un dispositivo que funcione como traductor bidireccional en tiempo real
    • Sería genial poder vivir allí sin perder tiempo aprendiendo alemán u otro idioma
    • Sería increíble poder pedir comida y hacer trámites administrativos usando solo inglés
  • Cualquiera podrá pedir un brazo robótico desde China, instalarlo en su garaje y programarlo con texto como si fuera un LLM
    • Es momento de pensar en grande
  • No estoy seguro de si el video representa el rendimiento real o si es una estrategia de marketing, pero es impresionante
    • Me recuerda a los brazos robóticos de Iron Man 1
  • Cuando los robots sean lo bastante hábiles como para preparar comidas, será un punto de inflexión para el mercado laboral
    • El modelo actual aún no llega a ese nivel, pero habrá que ver si la gran inversión en generación de datos sintéticos durante los próximos años lo acerca a eso
  • El problema de Google es que su negocio publicitario genera tantas ganancias que los demás productos pierden sentido
    • Usarán lo que aprendan de los robots para aumentar los ingresos por publicidad