6 puntos por GN⁺ 2025-04-04 | 1 comentarios | Compartir por WhatsApp
  • Google DeepMind desarrolló Gemini Robotics, un modelo de IA multimodal de próxima generación para robots capaces de realizar tareas físicas
  • El modelo es una versión de Gemini 2.0 ajustada con datos especializados para robótica, para que pueda realizar no solo texto, video y audio, sino también acciones reales
  • El robot realiza diversas tareas como preparar ensalada, jugar tres en raya, hacer origami y empacar almuerzos

Casos de prueba reales y verificación de capacidades

  • Se le solicitaron diversas tareas al robot de doble brazo ALOHA de investigación
    • Ej.: meter un bolígrafo dentro de un zapato, hacer una clavada con un balón de básquetbol
    • Aunque se trataba de objetos y tareas que el robot nunca había visto antes, entendió las solicitudes y las realizó con éxito en el primer intento
  • A diferencia de los modelos existentes, puede entender y ejecutar instrucciones físicas complejas en lenguaje natural

Características clave de Gemini Robotics

  • Cuenta con alta flexibilidad, capacidad de interacción y capacidad de generalización
    • Puede adaptarse a nuevos objetos, entornos e instrucciones sin entrenamiento adicional
  • Sienta las bases para implementar IA y robots como un único agente integrado
  • Ofrece capacidades de percepción, juicio y acción similares a las humanas

Introducción de los modelos que lo componen

  • Gemini Robotics-ER (Embodied Reasoning):

    • Basado en Gemini 2.0 Flash
    • Genera y ejecuta código mediante reconocimiento de objetos, ubicación, predicción de trayectorias de movimiento y configuración de agarre
    • Ya se está compartiendo con testers y socios de confianza
  • Gemini Robotics:

    • Modelo integrado de visión-lenguaje-acción
    • Puede comprender escenas, interactuar con el usuario y realizar tareas de múltiples pasos
    • Registra rendimiento de destreza de nivel líder en el estado del arte incluso en tareas que requieren manipulación compleja y razonamiento espacial

Capacidades técnicas concretas

  • Detección de objetos en 2D y 3D
  • Función de pointing (señalamiento)
  • Búsqueda de puntos correspondientes desde múltiples vistas
  • Capacidad de manipulación aprovechando diversa información visual

Enfoque de entrenamiento y ventajas

  • En lugar del enfoque industrial tradicional de entrenamiento repetitivo de una sola tarea, se eligió un aprendizaje amplio a través de tareas diversas
  • Como resultado, la capacidad de generalización surge de manera natural
  • Puede aplicarse a distintos tipos de robots
    • Ej.: ALOHA (investigación), Apollo de Apptronik (robot humanoide)

Compatibilidad con diversas formas de robots

  • Robots de distintas formas realizan diversas tareas, como empacar almuerzos, borrar pizarras y recoger objetos pequeños
  • El punto clave es que un solo modelo puede adaptarse a varios robots

Visión a futuro

  • Se espera que sea útil en sectores industriales que requieren tareas precisas o en entornos no adecuados para humanos
  • También podría evolucionar hacia robots útiles en entornos centrados en las personas, como el hogar
  • En la vida cotidiana, los robots podrían convertirse en otra interfaz con la IA

1 comentarios

 
GN⁺ 2025-04-04
Comentarios de Hacker News
  • Pueden hacerlo, pero aun así el Gemini Assistant del teléfono Pixel sigue fallando al poner temporizadores o agregar cosas a la lista del súper. (Con Google Assistant sí funcionaba bien)
  • No hay ninguna explicación del "cómo", pero si esta función siquiera opera con una confiabilidad a medias, tendría un impacto como 100 veces mayor que ChatGPT
  • Los avances en IA y robótica son muy emocionantes. Con sistemas complejos como Gemini, las empresas probablemente tendrán que depender de equipos especializados para hacer realidad estas innovaciones
    • Al subcontratar ciertos roles, como investigación en IA o ingeniería robótica, las empresas pueden incorporar talento de primer nivel sin la carga de contratar personal de tiempo completo
    • Es interesante ver cómo la subcontratación puede complementar la investigación y desarrollo en industrias de punta como la robótica
    • Me da curiosidad cómo cambiará la industria, especialmente en términos de escalabilidad y velocidad de salida al mercado
  • Al final, parece que alguien va a ayudar con las tareas del hogar

    • Ah, qué bien. Solo que detrás de eso todo tiene fines militares, pero me gusta el intento de hacer que pensemos que nos van a doblar la ropa
  • "Recoge el balón de básquetbol y haz una clavada". El caso de uso matador que llevábamos tanto tiempo esperando :)
  • Aunque la tecnología robótica de Google (software y hardware) sea de vanguardia, me pregunto si realmente podrán convertirla en producto
    • Se parece a cómo iban a la cabeza con los transformers, pero terminaron perdiendo toda su ventaja frente a ChatGPT
    • Parece que hay algo en Google que no les permite pasar de la investigación al producto de manera efectiva
    • Si crees que Waymo ya alcanzó hoy el ajuste producto-mercado, puede ser un buen contraejemplo, pero no puedo quitarme la sensación de que Google normalmente no logra sacar estas cosas al mercado, o si las saca, las abandona antes de que despeguen
    • Me pregunto si alguien tiene opiniones firmes o alguna perspectiva sobre sus esfuerzos en robótica
  • Da miedo pensar en la posibilidad de que algún día estos robots se usen en la industria de defensa
    • Si un robot puede entender una orden general como "guarda el borrador", imagina una orden como "elimina a todos los enemigos"
  • Solo por curiosidad, ¿qué haría si le ordenan matar a alguien? ¿Seguiría las leyes de la robótica?
  • ¡Feliz Día de los Inocentes!