SHARP - un enfoque para sintetizar vistas fotorrealistas a partir de una sola imagen

(apple.github.io)

5 puntos por GN⁺ 2025-12-17 | 1 comentarios | Compartir por WhatsApp

SHARP, presentado por Apple, es una tecnología que estima una representación gaussiana 3D a partir de una sola foto para sintetizar nuevos puntos de vista fotorrealistas
Procesa con una sola pasada feedforward de red neuronal en menos de 1 segundo sobre una GPU estándar, y permite renderizado en tiempo real
La representación 3D generada es una representación métrica con escala absoluta, compatible con movimientos reales de cámara
Muestra rendimiento de generalización zero-shot en varios datasets, con una reducción de 25–34% en LPIPS y de 21–43% en DISTS frente a modelos previos
Mejora la velocidad de síntesis en 1000 veces frente a enfoques anteriores, marcando un nuevo referente en síntesis de vistas 3D a partir de una sola imagen

Resumen de SHARP

SHARP (Sharp Monocular View Synthesis) es un enfoque para realizar síntesis de vistas 3D fotorrealistas a partir de una sola imagen
- Estima por regresión los parámetros de la representación gaussiana 3D de la escena a partir de una única foto de entrada
- Este proceso se completa en menos de 1 segundo en una GPU estándar
La representación gaussiana 3D generada admite renderizado en tiempo real y produce imágenes de alta resolución desde puntos de vista cercanos
- Alcanza velocidades de renderizado de más de 100 cuadros por segundo
- Mantiene estructuras finas y detalles nítidos

Características técnicas

La representación 3D de SHARP es una representación métrica que incluye escala absoluta, reflejando movimientos reales de cámara
Se procesa con una sola pasada feedforward de red neuronal, ofreciendo resultados rápidos sin un proceso complejo de optimización
Mantiene un desempeño estable incluso en datasets no vistos durante el entrenamiento gracias a la generalización zero-shot

Rendimiento y resultados comparativos

Logra estado del arte (state of the art) en varios datasets
- Mejora de 25–34% en la métrica LPIPS y de 21–43% en la métrica DISTS
- Reduce el tiempo de síntesis en 1000 veces frente al mejor modelo previo
Estas mejoras elevan al mismo tiempo la eficiencia y la calidad de la síntesis de vistas 3D basada en una sola imagen

Resultados visuales

SHARP visualiza la representación 3D generada desde una sola imagen de entrada usando fotos de Unsplash como ejemplo
- Los resultados de renderizado desde puntos de vista cercanos conservan detalles nítidos y estructuras finas
- El renderizado en tiempo real permite un movimiento de punto de vista natural

Fuente de la investigación

El artículo de investigación fue publicado en arXiv:2512.10685
- Título: Sharp Monocular View Synthesis in Less Than a Second
- Investigadores: Lars Mescheder y 12 más
- Afiliación: Apple

1 comentarios

GN⁺ 2025-12-17

Opiniones en Hacker News

“Unsplash > Gen3C > The fly video” es de verdad un video de pesadilla
Si quieres verlo por ti mismo, puedes revisar este enlace
- Puede que las empresas vean este tipo de resultados espantosos e intenten avanzar todavía más rápido, pero yo aún espero que sigan existiendo videos realistas
  Al final, parece que la gente va a perder sus relaciones con la realidad y terminar aferrándose a trajes de entretenimiento virtual
  Con algo de suerte, quizá quede al menos el intento de conocer gente “real” dentro de la realidad aumentada, pero ya dependemos demasiado de la tecnología
  Incluso si la tecnología avanza, no está claro que eso vaya a traer buenos resultados para los humanos
- Me da la sensación de la vieja IA de “la época en que todo se convertía en cabezas de perro”, y por eso hasta se siente hermoso
- “san check, 1d10” — un chiste de meme de juego de terror, como diciendo que el video da para hacer una tirada de cordura
- “Seth Brundle has entered the chat.” — una referencia al protagonista de The Fly para comparar el ambiente mutado del video
Logré hacer que algo funcionara en Apple Silicon
También hay un pequeño GIF de demostración en el repositorio de GitHub de ml-sharp
Estoy intentando aproximarlo sin reimplementar Gaussian splat, pero la verdad está algo pesado
- Los artefactos de banding del GIF hicieron que el fuego pareciera parpadear de verdad, lo cual fue interesante
  Me impresionó que la IA reconociera la estructura de una foto dentro de la foto y mantuviera solo la parte del fuego en 2D
- Los resultados del ejemplo, sinceramente, no impresionan mucho. Si ves el 20% inferior, la calidad cae
“¿Qué hace exactamente esto?”
- Es una técnica que, como en los documentales históricos, separa personas u objetos de fotos antiguas del fondo para darles movimiento tridimensional
  Este software hace eso en menos de un segundo y te genera un modelo 3D
  El Gaussian splatting está especialmente bueno
- Simula un efecto de paralaje como si cambiaras el ángulo de cámara a partir de una sola imagen 2D
  También separa bien a las personas y puede manejar escenas con varios sujetos
  Funciona con un principio parecido al efecto del modo retrato
- Convierte una sola foto en una escena 3D aproximada, y si mueves un poco la cámara puedes ver un nuevo punto de vista
  “Photorealistic” significa que mantiene las texturas e iluminación reales
  Es similar a la función Spatial Scene de la app Fotos de Apple — video de demostración
- Infiere una representación 3D oculta a partir de una sola foto y genera una imagen realista desde un punto de vista ligeramente distinto
- Básicamente usa estimación de profundidad (depth estimation) para dividir la escena en varios planos, y rellena las partes ocultas con inpainting
  Luego mueve cada plano para implementar el paralaje — parecido al efecto de profundidad de fondo en un juego 2D de desplazamiento lateral
Llama la atención que en los ejemplos casi no haya rostros humanos
Por mi experiencia hasta ahora, este tipo de modelos hacen que las personas se vean como recortes 2D de papel cuando las ves en volumen
No sé si este modelo realmente podrá representar bien la tridimensionalidad, pero la ausencia de rostros humanos resulta sugerente
- Apple está usando el modelo Depth Pro para la estimación de profundidad, y dicen que representa bastante bien los rostros
  Depth Pro GitHub / explicación en LearnOpenCV
Lo hizo Apple, pero es solo para GPU CUDA documentación relacionada
- Curiosamente, el propio modelo de Apple no funciona en MPS
  Parece que habrá que esperar unos años
- La salida de Gaussian splat sí puede generarse también en CPU
  De todos los repositorios de IA que he probado, este fue de los más fáciles de ejecutar
- La versión modificada está aquí
- Esta limitación aplica solo al renderizado de video
  El modelo en sí funciona en GPU, CPU y MPS
- El modelo funciona incluso sin CUDA
  Obtienes un archivo .ply como resultado y lo puedes meter en el visor SparkJS
  CUDA solo hace falta para renderizar el video con desplazamiento lateral
La clave es que “genera una representación 3D realista a partir de una sola foto en menos de un segundo”
La función Spatial Scene de la app Fotos de Apple también funciona de forma parecida
video de demostración
- Pero el resultado a menudo crea un espacio borroso y antinatural
  Hubo una época en la que el relleno según contenido de Photoshop incluso se veía mejor
¿Hay archivos de muestra de Gaussian splat?
- Subí los resultados de mis pruebas a este repositorio
  Eso sí, como solo hay un ejemplo, es difícil generalizar
Los resultados son impresionantes, pero dan una sensación demasiado afilada y artificial
- A mí me gustan tanto los resultados de TMPI como los de SHARP
  Aunque TMPI siempre sale más brillante, no sé cuál de los dos es el correcto

SHARP - un enfoque para sintetizar vistas fotorrealistas a partir de una sola imagen

Resumen de SHARP

Características técnicas

Rendimiento y resultados comparativos

Resultados visuales

Fuente de la investigación

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News