- Los modelos de lenguaje a gran escala pueden realizar tareas complejas, pero para permitir el razonamiento general en el mundo real, como en problemas de robótica, necesitan estar fundamentados en una base concreta
- Se propone un EMLM para integrar directamente en el modelo de lenguaje las modalidades sensoriales continuas del mundo real y construir una conexión entre las palabras y las percepciones (Percepts)
- Procesa como entrada oraciones multimodales que combinan codificación de entradas visuales, estimación continua de estado y texto
- "Tráeme unas chips de arroz del cajón": puede desplazarse hasta el cajón, abrirlo, buscar, tomar el objeto, cerrar el cajón y traerlo. Incluso si una persona interfiere ligeramente en medio del proceso, vuelve a intentarlo
- El modelo de lenguaje más grande, PaLM-E 562B + OK-VQA (dataset for visual question answering)
1 comentarios
¿Qué es la IA incorporada?