- Conjunto de datos base y benchmark para apoyar la investigación en aprendizaje de video y percepción multimodal
- Captura simultáneamente la perspectiva en primera persona "Egocentric" a través de cámaras vestibles de los participantes y múltiples perspectivas "Exocentric" desde cámaras ubicadas alrededor de ellos
- Ambas perspectivas se complementan entre sí: Ego muestra lo que el participante ve y escucha, mientras que Exo revela la escena circundante y el contexto
- Usar ambas perspectivas juntas puede ofrecer a los modelos de IA una nueva visión sobre habilidades humanas complejas
- Un esfuerzo de dos años de FAIR (Fundamental Artificial Intelligence Research) y Project Aria de Meta, junto con 15 universidades asociadas
- Fue capturado con la ayuda de más de 800 participantes expertos en Estados Unidos, Japón, Colombia, Singapur, India y Canadá
- Se publicó como open source con datos que incluyen más de 1,400 horas de video y anotaciones para nuevas tareas de benchmark
- Ego-Exo4D se enfoca en actividades humanas especializadas como deportes, música, cocina, baile y reparación de bicicletas
- Avanzar en la capacidad de la IA para entender la pericia humana en video podría habilitar muchas aplicaciones
- Por ejemplo, en sistemas de AR, una persona con lentes inteligentes podría aprender rápidamente nuevas habilidades con la guía de un coach virtual de IA
- Ego-Exo4D es el mayor conjunto de datos público de video en primera y tercera persona sincronizados en el tiempo
- Para construir este conjunto de datos, se reclutaron expertos de diversos campos y participaron especialistas del mundo real
- Ego-Exo4D no solo es un conjunto de datos multivista, sino también multimodal, y todos los videos ego capturados con los lentes Aria de Meta incluyen audio de 7 canales alineado temporalmente, una unidad de medición inercial (IMU), dos cámaras monocromáticas gran angular y más
Aún no hay comentarios.