- SHARP, presentado por Apple, es una tecnología que estima una representación gaussiana 3D a partir de una sola foto para sintetizar nuevos puntos de vista fotorrealistas
- Procesa con una sola pasada feedforward de red neuronal en menos de 1 segundo sobre una GPU estándar, y permite renderizado en tiempo real
- La representación 3D generada es una representación métrica con escala absoluta, compatible con movimientos reales de cámara
- Muestra rendimiento de generalización zero-shot en varios datasets, con una reducción de 25–34% en LPIPS y de 21–43% en DISTS frente a modelos previos
- Mejora la velocidad de síntesis en 1000 veces frente a enfoques anteriores, marcando un nuevo referente en síntesis de vistas 3D a partir de una sola imagen
Resumen de SHARP
- SHARP (Sharp Monocular View Synthesis) es un enfoque para realizar síntesis de vistas 3D fotorrealistas a partir de una sola imagen
- Estima por regresión los parámetros de la representación gaussiana 3D de la escena a partir de una única foto de entrada
- Este proceso se completa en menos de 1 segundo en una GPU estándar
- La representación gaussiana 3D generada admite renderizado en tiempo real y produce imágenes de alta resolución desde puntos de vista cercanos
- Alcanza velocidades de renderizado de más de 100 cuadros por segundo
- Mantiene estructuras finas y detalles nítidos
Características técnicas
- La representación 3D de SHARP es una representación métrica que incluye escala absoluta, reflejando movimientos reales de cámara
- Se procesa con una sola pasada feedforward de red neuronal, ofreciendo resultados rápidos sin un proceso complejo de optimización
- Mantiene un desempeño estable incluso en datasets no vistos durante el entrenamiento gracias a la generalización zero-shot
Rendimiento y resultados comparativos
- Logra estado del arte (state of the art) en varios datasets
- Mejora de 25–34% en la métrica LPIPS y de 21–43% en la métrica DISTS
- Reduce el tiempo de síntesis en 1000 veces frente al mejor modelo previo
- Estas mejoras elevan al mismo tiempo la eficiencia y la calidad de la síntesis de vistas 3D basada en una sola imagen
Resultados visuales
- SHARP visualiza la representación 3D generada desde una sola imagen de entrada usando fotos de Unsplash como ejemplo
- Los resultados de renderizado desde puntos de vista cercanos conservan detalles nítidos y estructuras finas
- El renderizado en tiempo real permite un movimiento de punto de vista natural
Fuente de la investigación
- El artículo de investigación fue publicado en arXiv:2512.10685
- Título: Sharp Monocular View Synthesis in Less Than a Second
- Investigadores: Lars Mescheder y 12 más
- Afiliación: Apple
1 comentarios
Opiniones en Hacker News
“Unsplash > Gen3C > The fly video” es de verdad un video de pesadilla
Si quieres verlo por ti mismo, puedes revisar este enlace
Al final, parece que la gente va a perder sus relaciones con la realidad y terminar aferrándose a trajes de entretenimiento virtual
Con algo de suerte, quizá quede al menos el intento de conocer gente “real” dentro de la realidad aumentada, pero ya dependemos demasiado de la tecnología
Incluso si la tecnología avanza, no está claro que eso vaya a traer buenos resultados para los humanos
Logré hacer que algo funcionara en Apple Silicon
También hay un pequeño GIF de demostración en el repositorio de GitHub de ml-sharp
Estoy intentando aproximarlo sin reimplementar Gaussian splat, pero la verdad está algo pesado
Me impresionó que la IA reconociera la estructura de una foto dentro de la foto y mantuviera solo la parte del fuego en 2D
“¿Qué hace exactamente esto?”
Este software hace eso en menos de un segundo y te genera un modelo 3D
El Gaussian splatting está especialmente bueno
También separa bien a las personas y puede manejar escenas con varios sujetos
Funciona con un principio parecido al efecto del modo retrato
“Photorealistic” significa que mantiene las texturas e iluminación reales
Es similar a la función Spatial Scene de la app Fotos de Apple — video de demostración
Luego mueve cada plano para implementar el paralaje — parecido al efecto de profundidad de fondo en un juego 2D de desplazamiento lateral
Llama la atención que en los ejemplos casi no haya rostros humanos
Por mi experiencia hasta ahora, este tipo de modelos hacen que las personas se vean como recortes 2D de papel cuando las ves en volumen
No sé si este modelo realmente podrá representar bien la tridimensionalidad, pero la ausencia de rostros humanos resulta sugerente
Depth Pro GitHub / explicación en LearnOpenCV
Lo hizo Apple, pero es solo para GPU CUDA documentación relacionada
Parece que habrá que esperar unos años
De todos los repositorios de IA que he probado, este fue de los más fáciles de ejecutar
El modelo en sí funciona en GPU, CPU y MPS
Obtienes un archivo
.plycomo resultado y lo puedes meter en el visor SparkJSCUDA solo hace falta para renderizar el video con desplazamiento lateral
La clave es que “genera una representación 3D realista a partir de una sola foto en menos de un segundo”
La función Spatial Scene de la app Fotos de Apple también funciona de forma parecida
video de demostración
Hubo una época en la que el relleno según contenido de Photoshop incluso se veía mejor
¿Hay archivos de muestra de Gaussian splat?
Eso sí, como solo hay un ejemplo, es difícil generalizar
Los resultados son impresionantes, pero dan una sensación demasiado afilada y artificial
Aunque TMPI siempre sale más brillante, no sé cuál de los dos es el correcto