5 puntos por xguru 2022-07-29 | 1 comentarios | Compartir por WhatsApp
  • Traducción de los manuales visuales de ensamblaje de Lego, compuestos por imágenes 2D, para que las máquinas puedan interpretarlos
  • Se aborda como una tarea de predicción secuencial: en cada paso, el modelo lee el manual, encuentra el componente que debe añadirse a la forma actual e infiere la forma 3D
  • Se requieren tareas como el problema de correspondencia 2D-3D entre las imágenes 2D del manual y el objeto 3D real, así como la inferencia de forma de objetos 3D no vistos (unseen)
  • Se presenta MEPNet (Manual-to-Executable-Plan Network), un framework basado en aprendizaje para resolver esto
  • La idea central es un módulo de detección de puntos clave 2D, un algoritmo de proyección 2D-3D para predicciones de alta precisión, y una sólida generalización para componentes unseen