- El equipo de investigación en IA de Apple desarrolló un nuevo modelo, Depth Pro, que podría hacer avanzar significativamente la forma en que las máquinas perciben la profundidad
- Puede impulsar innovaciones en diversas industrias, desde la realidad aumentada hasta los vehículos autónomos
Características principales de Depth Pro
- Genera mapas de profundidad 3D detallados a partir de una sola imagen 2D a velocidades ultrarrápidas, sin depender de los datos de cámara que antes eran necesarios
- Representa un gran salto en el campo de la estimación de profundidad monocular (monocular depth estimation)
- Puede aplicarse ampliamente en áreas donde la percepción espacial en tiempo real es importante
Estimación de profundidad rápida y precisa sin metadatos
- La estimación de profundidad monocular ha sido tradicionalmente una tarea difícil porque requería múltiples imágenes o metadatos como la distancia focal
- Sin embargo, Depth Pro evita estos requisitos y genera mapas de profundidad de alta resolución en 0.3 segundos en una GPU estándar
- Produce mapas de 2.25 megapíxeles con una nitidez excepcional y captura detalles finos como cabello o plantas, que otros métodos suelen pasar por alto
- Los investigadores explican que "estas capacidades fueron posibles gracias a varias contribuciones técnicas, incluido un transformador de visión multiescala eficiente para predicción densa"
- Esta arquitectura puede procesar al mismo tiempo el contexto general de la imagen y los detalles finos, lo que representa un salto enorme frente a modelos anteriores más lentos e inexactos
Qué lo diferencia: metric depth y zero-shot learning
- Lo que realmente diferencia a Depth Pro es su capacidad de "metric depth", que le permite estimar tanto profundidad relativa como profundidad absoluta
- Esto significa que el modelo puede ofrecer mediciones reales, algo esencial para aplicaciones como la realidad aumentada (AR), donde los objetos virtuales deben colocarse con precisión en un espacio físico
- Depth Pro no requiere un entrenamiento extenso con datasets específicos de dominio para hacer predicciones precisas, algo que se conoce como "zero-shot learning"
- Esto aumenta mucho la versatilidad del modelo y le permite aplicarse a distintos tipos de imágenes sin los datos específicos de cámara que normalmente requieren los modelos de estimación de profundidad
- Los autores explican que "Depth Pro genera mapas de metric depth con escala absoluta para imágenes arbitrarias en condiciones del mundo real, sin metadatos como parámetros intrínsecos de la cámara"
- Esta flexibilidad abre muchas posibilidades, desde mejorar experiencias de AR hasta reforzar la detección y evasión de obstáculos en vehículos autónomos
Casos de uso reales
- En comercio electrónico, podría mostrar cómo quedaría un mueble en una habitación cuando el consumidor apunta su smartphone con la cámara
- En un vehículo autónomo, la generación en tiempo real de mapas de profundidad de alta resolución a partir de una sola cámara puede ayudar a mejorar la percepción del entorno y la seguridad
- Los investigadores subrayan que "idealmente, en este régimen de zero-shot se deben generar mapas de metric depth que reproduzcan con precisión la forma de los objetos, la disposición de la escena y la escala absoluta", destacando su potencial para reducir el tiempo y costo del entrenamiento tradicional de modelos de IA
Resolviendo problemas difíciles de la estimación de profundidad
- Uno de los retos más difíciles en la estimación de profundidad es manejar el fenómeno conocido como "flying pixels"
- "Flying pixels" se refiere a píxeles que parecen flotar en el aire debido a errores en el mapeo de profundidad
- Depth Pro aborda este problema de frente, por lo que resulta especialmente eficaz en aplicaciones donde la precisión es crítica, como la reconstrucción 3D o los entornos virtuales
- Además, Depth Pro ofrece un rendimiento sobresaliente en el seguimiento de bordes, y su capacidad para representar con nitidez los objetos y sus contornos supera a la de modelos anteriores
- Los investigadores afirman que Depth Pro "supera a otros sistemas por un factor multiplicativo en precisión de bordes", algo clave para aplicaciones que requieren segmentación precisa de objetos, como image matting o imágenes médicas
Lanzamiento open source y escalabilidad
- Apple publicó Depth Pro como open source para acelerar la adopción de la tecnología
- El código y los pesos preentrenados del modelo están disponibles en GitHub, para que desarrolladores e investigadores puedan experimentar y mejorarlo con facilidad
- También se está fomentando la exploración de su potencial en sectores como robótica, manufactura y salud
El futuro de la percepción de profundidad con IA
- Depth Pro establece un nuevo estándar de velocidad y precisión en la estimación de profundidad monocular
- Su capacidad para generar mapas de profundidad en tiempo real y de alta calidad a partir de una sola imagen tendrá un gran impacto en industrias que dependen de la percepción espacial
- Al estar disponible como open source, Depth Pro podría consolidarse como una tecnología clave en sectores que van desde la conducción autónoma hasta la realidad aumentada
5 comentarios
Mmm... me da la impresión de que debería decir Meta en vez de Apple...
Me recuerda a Microsoft Photosynth (2006)
Tengo entendido que en Tesla AI están resolviendo este problema de percepción de profundidad implementando un modelo de
occupancy networkcon multi-view y NeRF. Da curiosidad ver cómo estas empresas comerciales aprovecharán este modelo y cómo lo seguirán mejorando.guau..
Cuando los LLM estaban súper de moda, Apple estaba muy callada, así que uno se preguntaba qué demonios estaba haciendo; parece que estaba metiéndose de lleno en esto.