- "Robotics-Transformer 2": llevar el conocimiento de la web al control de robots
- Integración directa de modelos de visión-lenguaje entrenados con datos a escala de internet en el control robótico E2E
- Las acciones del robot se convierten en tokens de texto y se organizan como un lenguaje independiente que puede usarse junto con modelos de datos de visión-lenguaje, convirtiendo instrucciones de tareas en acciones
- Incluso cuando se le presentan al robot objetos completamente nuevos (que no había visto durante el entrenamiento), los comprende bien y realiza la tarea
- "put strawberry into the correct bowl"
- "place orange in matching bowl"
2 comentarios
El modelo de IA RT-2 de Google nos acerca un paso más a WALL-E
El título del artículo de Ars Technica sí explica mejor el tema. Parece que los avances de los LLM podrían convertirse en una nueva innovación para el control de robots.
Google está probando robots que pueden programarse a sí mismos
ChatGPT para robótica: principios de diseño y capacidades del modelo