Apple presenta Depth Pro: el modelo de IA que redefine las reglas de la visión 3D

xguru · 2024-10-07T09:51:02+09:00

El equipo de investigación en IA de Apple desarrolló un nuevo modelo, Depth Pro, que podría hacer avanzar significativamente la forma en que las máquinas perciben la profundidad Puede impulsar innovaciones en diversas industrias, desde la realidad aumentada hasta los vehículos autónomos Características principales de Depth Pro Genera mapas de profundidad 3D detallados a partir de una sola imagen 2D a velocidades ultrarrápidas, sin depender de los datos de cámara que antes eran necesarios Representa un gran salto en el campo de la estimación de profundidad monocular (monocular depth estimation) Puede aplicarse ampliamente en áreas donde la percepción espacial en tiempo real es importante Estimación de profundidad rápida y precisa sin metadatos La estimación de profundidad monocular ha sido tradicionalmente una tarea difícil porque requería múltiples imágenes o metadatos como la distancia focal Sin embargo, Depth Pro evita estos requisitos y genera mapas de profundidad de alta resolución en 0.3 segundos en una GPU estándar Produce mapas de 2.25 megapíxeles con una nitidez excepcional y captura detalles finos como cabello o plantas, que otros métodos suelen pasar por alto Los investigadores explican que "estas capacidades fueron posibles gracias a varias contribuciones técnicas, incluido un transformador de visión multiescala eficiente para predicción densa" Esta arquitectura puede procesar al mismo tiempo el contexto general de la imagen y los detalles finos, lo que representa un salto enorme frente a modelos anteriores más lentos e inexactos Qué lo diferencia: metric depth y zero-shot learning Lo que realmente diferencia a Depth Pro es su capacidad de "metric depth", que le permite estimar tanto profundidad relativa como profundidad absoluta Esto significa que el modelo puede ofrecer mediciones reales, algo esencial para aplicaciones como la realidad aumentada (AR), donde los objetos virtuales deben colocarse con precisión en un espacio físico Depth Pro no requiere un entrenamiento extenso con datasets específicos de dominio para hacer predicciones precisas, algo que se conoce como "zero-shot learning" Esto aumenta mucho la versatilidad del modelo y le permite aplicarse a distintos tipos de imágenes sin los datos específicos de cámara que normalmente requieren los modelos de estimación de profundidad Los autores explican que "Depth Pro genera mapas de metric depth con escala absoluta para imágenes arbitrarias en condiciones del mundo real, sin metadatos como parámetros intrínsecos de la cámara" Esta flexibilidad abre muchas posibilidades, desde mejorar experiencias de AR hasta reforzar la detección y evasión de obstáculos en vehículos autónomos Casos de uso reales En comercio electrónico, podría mostrar cómo quedaría un mueble en una habitación cuando el consumidor apunta su smartphone con la cámara En un vehículo autónomo, la generación en tiempo real de mapas de profundidad de alta resolución a partir de una sola cámara puede ayudar a mejorar la percepción del entorno y la seguridad Los investigadores subrayan que "idealmente, en este régimen de zero-shot se deben generar mapas de metric depth que reproduzcan con precisión la forma de los objetos, la disposición de la escena y la escala absoluta", destacando su potencial para reducir el tiempo y costo del entrenamiento tradicional de modelos de IA Resolviendo problemas difíciles de la estimación de profundidad Uno de los retos más difíciles en la estimación de profundidad es manejar el fenómeno conocido como "flying pixels" "Flying pixels" se refiere a píxeles que parecen flotar en el aire debido a errores en el mapeo de profundidad Depth Pro aborda este problema de frente, por lo que resulta especialmente eficaz en aplicaciones donde la precisión es crítica, como la reconstrucción 3D o los entornos virtuales Además, Depth Pro ofrece un rendimiento sobresaliente en el seguimiento de bordes, y su capacidad para representar con nitidez los objetos y sus contornos supera a la de modelos anteriores Los investigadores afirman que Depth Pro "supera a otros sistemas por un factor multiplicativo en precisión de bordes", algo clave para aplicaciones que requieren segmentación precisa de objetos, como image matting o imágenes médicas Lanzamiento open source y escalabilidad Apple publicó Depth Pro como open source para acelerar la adopción de la tecnología El código y los pesos preentrenados del modelo están disponibles en GitHub, para que desarrolladores e investigadores puedan experimentar y mejorarlo con facilidad También se está fomentando la exploración de su potencial en sectores como robótica, manufactura y salud El futuro de la percepción de profundidad con IA Depth Pro establece un nuevo estándar de velocidad y precisión en la estimación de profundidad monocular Su capacidad para generar mapas de profundidad en tiempo real y de alta calidad a partir de una sola imagen tendrá un gran impacto en industrias que dependen de la percepción espacial Al estar disponible como open source, Depth Pro podría consolidarse como una tecnología clave en sectores que van desde la conducción autónoma hasta la realidad aumentada

(venturebeat.com)

24 puntos por xguru 2024-10-07 | 5 comentarios | Compartir por WhatsApp

El equipo de investigación en IA de Apple desarrolló un nuevo modelo, Depth Pro, que podría hacer avanzar significativamente la forma en que las máquinas perciben la profundidad
Puede impulsar innovaciones en diversas industrias, desde la realidad aumentada hasta los vehículos autónomos

Características principales de Depth Pro

Genera mapas de profundidad 3D detallados a partir de una sola imagen 2D a velocidades ultrarrápidas, sin depender de los datos de cámara que antes eran necesarios
Representa un gran salto en el campo de la estimación de profundidad monocular (monocular depth estimation)
Puede aplicarse ampliamente en áreas donde la percepción espacial en tiempo real es importante

Estimación de profundidad rápida y precisa sin metadatos

La estimación de profundidad monocular ha sido tradicionalmente una tarea difícil porque requería múltiples imágenes o metadatos como la distancia focal
Sin embargo, Depth Pro evita estos requisitos y genera mapas de profundidad de alta resolución en 0.3 segundos en una GPU estándar
Produce mapas de 2.25 megapíxeles con una nitidez excepcional y captura detalles finos como cabello o plantas, que otros métodos suelen pasar por alto
Los investigadores explican que "estas capacidades fueron posibles gracias a varias contribuciones técnicas, incluido un transformador de visión multiescala eficiente para predicción densa"
Esta arquitectura puede procesar al mismo tiempo el contexto general de la imagen y los detalles finos, lo que representa un salto enorme frente a modelos anteriores más lentos e inexactos

Qué lo diferencia: metric depth y zero-shot learning

Lo que realmente diferencia a Depth Pro es su capacidad de "metric depth", que le permite estimar tanto profundidad relativa como profundidad absoluta
Esto significa que el modelo puede ofrecer mediciones reales, algo esencial para aplicaciones como la realidad aumentada (AR), donde los objetos virtuales deben colocarse con precisión en un espacio físico
Depth Pro no requiere un entrenamiento extenso con datasets específicos de dominio para hacer predicciones precisas, algo que se conoce como "zero-shot learning"
Esto aumenta mucho la versatilidad del modelo y le permite aplicarse a distintos tipos de imágenes sin los datos específicos de cámara que normalmente requieren los modelos de estimación de profundidad
Los autores explican que "Depth Pro genera mapas de metric depth con escala absoluta para imágenes arbitrarias en condiciones del mundo real, sin metadatos como parámetros intrínsecos de la cámara"
Esta flexibilidad abre muchas posibilidades, desde mejorar experiencias de AR hasta reforzar la detección y evasión de obstáculos en vehículos autónomos

Casos de uso reales

En comercio electrónico, podría mostrar cómo quedaría un mueble en una habitación cuando el consumidor apunta su smartphone con la cámara
En un vehículo autónomo, la generación en tiempo real de mapas de profundidad de alta resolución a partir de una sola cámara puede ayudar a mejorar la percepción del entorno y la seguridad
Los investigadores subrayan que "idealmente, en este régimen de zero-shot se deben generar mapas de metric depth que reproduzcan con precisión la forma de los objetos, la disposición de la escena y la escala absoluta", destacando su potencial para reducir el tiempo y costo del entrenamiento tradicional de modelos de IA

Resolviendo problemas difíciles de la estimación de profundidad

Uno de los retos más difíciles en la estimación de profundidad es manejar el fenómeno conocido como "flying pixels"
- "Flying pixels" se refiere a píxeles que parecen flotar en el aire debido a errores en el mapeo de profundidad
Depth Pro aborda este problema de frente, por lo que resulta especialmente eficaz en aplicaciones donde la precisión es crítica, como la reconstrucción 3D o los entornos virtuales
Además, Depth Pro ofrece un rendimiento sobresaliente en el seguimiento de bordes, y su capacidad para representar con nitidez los objetos y sus contornos supera a la de modelos anteriores
Los investigadores afirman que Depth Pro "supera a otros sistemas por un factor multiplicativo en precisión de bordes", algo clave para aplicaciones que requieren segmentación precisa de objetos, como image matting o imágenes médicas

Lanzamiento open source y escalabilidad

Apple publicó Depth Pro como open source para acelerar la adopción de la tecnología
El código y los pesos preentrenados del modelo están disponibles en GitHub, para que desarrolladores e investigadores puedan experimentar y mejorarlo con facilidad
También se está fomentando la exploración de su potencial en sectores como robótica, manufactura y salud

El futuro de la percepción de profundidad con IA

Depth Pro establece un nuevo estándar de velocidad y precisión en la estimación de profundidad monocular
Su capacidad para generar mapas de profundidad en tiempo real y de alta calidad a partir de una sola imagen tendrá un gran impacto en industrias que dependen de la percepción espacial
Al estar disponible como open source, Depth Pro podría consolidarse como una tecnología clave en sectores que van desde la conducción autónoma hasta la realidad aumentada

5 comentarios

plaaat0102 2024-10-07

Mmm... me da la impresión de que debería decir Meta en vez de Apple...

savvykang 2024-10-07

Me recuerda a Microsoft Photosynth (2006)

is9117 2024-10-07

Tengo entendido que en Tesla AI están resolviendo este problema de percepción de profundidad implementando un modelo de occupancy network con multi-view y NeRF. Da curiosidad ver cómo estas empresas comerciales aprovecharán este modelo y cómo lo seguirán mejorando.

nemorize 2024-10-07

guau..

eususu 2024-10-07

Cuando los LLM estaban súper de moda, Apple estaba muy callada, así que uno se preguntaba qué demonios estaba haciendo; parece que estaba metiéndose de lleno en esto.