RT-2: Modelos de visión-lenguaje-acción

xguru · 2023-08-02T11:05:01+09:00

"Robotics-Transformer 2": llevar el conocimiento de la web al control de robots Integración directa de modelos de visión-lenguaje entrenados con datos a escala de internet en el control robótico E2E Las acciones del robot se convierten en tokens de texto y se organizan como un lenguaje independiente que puede usarse junto con modelos de datos de visión-lenguaje, convirtiendo instrucciones de tareas en acciones Incluso cuando se le presentan al robot objetos completamente nuevos (que no había visto durante el entrenamiento), los comprende bien y realiza la tarea "put strawberry into the correct bowl" "place orange in matching bowl"

(robotics-transformer2.github.io)

7 puntos por xguru 2023-08-02 | 2 comentarios | Compartir por WhatsApp

"Robotics-Transformer 2": llevar el conocimiento de la web al control de robots
Integración directa de modelos de visión-lenguaje entrenados con datos a escala de internet en el control robótico E2E
Las acciones del robot se convierten en tokens de texto y se organizan como un lenguaje independiente que puede usarse junto con modelos de datos de visión-lenguaje, convirtiendo instrucciones de tareas en acciones
Incluso cuando se le presentan al robot objetos completamente nuevos (que no había visto durante el entrenamiento), los comprende bien y realiza la tarea
- "put strawberry into the correct bowl"
- "place orange in matching bowl"

2 comentarios

xguru 2023-08-02

El modelo de IA RT-2 de Google nos acerca un paso más a WALL-E

El título del artículo de Ars Technica sí explica mejor el tema. Parece que los avances de los LLM podrían convertirse en una nueva innovación para el control de robots.

xguru 2023-08-02

Google está probando robots que pueden programarse a sí mismos
ChatGPT para robótica: principios de diseño y capacidades del modelo

RT-2: Modelos de visión-lenguaje-acción

Lecturas relacionadas

2 comentarios