- Traducción de los manuales visuales de ensamblaje de Lego, compuestos por imágenes 2D, para que las máquinas puedan interpretarlos
- Se aborda como una tarea de predicción secuencial: en cada paso, el modelo lee el manual, encuentra el componente que debe añadirse a la forma actual e infiere la forma 3D
- Se requieren tareas como el problema de correspondencia 2D-3D entre las imágenes 2D del manual y el objeto 3D real, así como la inferencia de forma de objetos 3D no vistos (
unseen)
- Se presenta MEPNet (Manual-to-Executable-Plan Network), un framework basado en aprendizaje para resolver esto
- La idea central es un módulo de detección de puntos clave 2D, un algoritmo de proyección 2D-3D para predicciones de alta precisión, y una sólida generalización para componentes
unseen
1 comentarios
Me hace pensar en una startup llamada brickit que, si le tomas una foto a un montón de piezas de LEGO, usa inteligencia artificial para clasificar las piezas y sugerirte qué LEGO puedes construir.