PaLM-E: modelo de lenguaje multimodal incorporado

xguru · 2023-03-08T12:11:57+09:00

Los modelos de lenguaje a gran escala pueden realizar tareas complejas, pero para permitir el razonamiento general en el mundo real, como en problemas de robótica, necesitan estar fundamentados en una base concreta Se propone un EMLM para integrar directamente en el modelo de lenguaje las modalidades sensoriales continuas del mundo real y construir una conexión entre las palabras y las percepciones (Percepts) Procesa como entrada oraciones multimodales que combinan codificación de entradas visuales, estimación continua de estado y texto "Tráeme unas chips de arroz del cajón": puede desplazarse hasta el cajón, abrirlo, buscar, tomar el objeto, cerrar el cajón y traerlo. Incluso si una persona interfiere ligeramente en medio del proceso, vuelve a intentarlo El modelo de lenguaje más grande, PaLM-E 562B + OK-VQA (dataset for visual question answering)

(palm-e.github.io)

15 puntos por xguru 2023-03-08 | 1 comentarios | Compartir por WhatsApp

Los modelos de lenguaje a gran escala pueden realizar tareas complejas, pero para permitir el razonamiento general en el mundo real, como en problemas de robótica, necesitan estar fundamentados en una base concreta
Se propone un EMLM para integrar directamente en el modelo de lenguaje las modalidades sensoriales continuas del mundo real y construir una conexión entre las palabras y las percepciones (Percepts)
Procesa como entrada oraciones multimodales que combinan codificación de entradas visuales, estimación continua de estado y texto
- "Tráeme unas chips de arroz del cajón": puede desplazarse hasta el cajón, abrirlo, buscar, tomar el objeto, cerrar el cajón y traerlo. Incluso si una persona interfiere ligeramente en medio del proceso, vuelve a intentarlo
El modelo de lenguaje más grande, PaLM-E 562B + OK-VQA (dataset for visual question answering)

1 comentarios

xguru 2023-03-08

¿Qué es la IA incorporada?

Es un campo en el que se crea un agente en un entorno virtual 3D llamado simulador (Simulator), se le entrena haciéndole realizar diversas tareas (Task) y luego se transfiere a una máquina del mundo real, como un robot (Sim2Real), para que también pueda ejecutar bien tareas específicas en la realidad.

PaLM-E: modelo de lenguaje multimodal incorporado

Lecturas relacionadas

1 comentarios