5 puntos por GN⁺ 2025-12-17 | 1 comentarios | Compartir por WhatsApp
  • SHARP, presentado por Apple, es una tecnología que estima una representación gaussiana 3D a partir de una sola foto para sintetizar nuevos puntos de vista fotorrealistas
  • Procesa con una sola pasada feedforward de red neuronal en menos de 1 segundo sobre una GPU estándar, y permite renderizado en tiempo real
  • La representación 3D generada es una representación métrica con escala absoluta, compatible con movimientos reales de cámara
  • Muestra rendimiento de generalización zero-shot en varios datasets, con una reducción de 25–34% en LPIPS y de 21–43% en DISTS frente a modelos previos
  • Mejora la velocidad de síntesis en 1000 veces frente a enfoques anteriores, marcando un nuevo referente en síntesis de vistas 3D a partir de una sola imagen

Resumen de SHARP

  • SHARP (Sharp Monocular View Synthesis) es un enfoque para realizar síntesis de vistas 3D fotorrealistas a partir de una sola imagen
    • Estima por regresión los parámetros de la representación gaussiana 3D de la escena a partir de una única foto de entrada
    • Este proceso se completa en menos de 1 segundo en una GPU estándar
  • La representación gaussiana 3D generada admite renderizado en tiempo real y produce imágenes de alta resolución desde puntos de vista cercanos
    • Alcanza velocidades de renderizado de más de 100 cuadros por segundo
    • Mantiene estructuras finas y detalles nítidos

Características técnicas

  • La representación 3D de SHARP es una representación métrica que incluye escala absoluta, reflejando movimientos reales de cámara
  • Se procesa con una sola pasada feedforward de red neuronal, ofreciendo resultados rápidos sin un proceso complejo de optimización
  • Mantiene un desempeño estable incluso en datasets no vistos durante el entrenamiento gracias a la generalización zero-shot

Rendimiento y resultados comparativos

  • Logra estado del arte (state of the art) en varios datasets
    • Mejora de 25–34% en la métrica LPIPS y de 21–43% en la métrica DISTS
    • Reduce el tiempo de síntesis en 1000 veces frente al mejor modelo previo
  • Estas mejoras elevan al mismo tiempo la eficiencia y la calidad de la síntesis de vistas 3D basada en una sola imagen

Resultados visuales

  • SHARP visualiza la representación 3D generada desde una sola imagen de entrada usando fotos de Unsplash como ejemplo
    • Los resultados de renderizado desde puntos de vista cercanos conservan detalles nítidos y estructuras finas
    • El renderizado en tiempo real permite un movimiento de punto de vista natural

Fuente de la investigación

  • El artículo de investigación fue publicado en arXiv:2512.10685
    • Título: Sharp Monocular View Synthesis in Less Than a Second
    • Investigadores: Lars Mescheder y 12 más
    • Afiliación: Apple

1 comentarios

 
GN⁺ 2025-12-17
Opiniones en Hacker News
  • “Unsplash > Gen3C > The fly video” es de verdad un video de pesadilla
    Si quieres verlo por ti mismo, puedes revisar este enlace

    • Puede que las empresas vean este tipo de resultados espantosos e intenten avanzar todavía más rápido, pero yo aún espero que sigan existiendo videos realistas
      Al final, parece que la gente va a perder sus relaciones con la realidad y terminar aferrándose a trajes de entretenimiento virtual
      Con algo de suerte, quizá quede al menos el intento de conocer gente “real” dentro de la realidad aumentada, pero ya dependemos demasiado de la tecnología
      Incluso si la tecnología avanza, no está claro que eso vaya a traer buenos resultados para los humanos
    • Me da la sensación de la vieja IA de “la época en que todo se convertía en cabezas de perro”, y por eso hasta se siente hermoso
    • “san check, 1d10” — un chiste de meme de juego de terror, como diciendo que el video da para hacer una tirada de cordura
    • “Seth Brundle has entered the chat.” — una referencia al protagonista de The Fly para comparar el ambiente mutado del video
  • Logré hacer que algo funcionara en Apple Silicon
    También hay un pequeño GIF de demostración en el repositorio de GitHub de ml-sharp
    Estoy intentando aproximarlo sin reimplementar Gaussian splat, pero la verdad está algo pesado

    • Los artefactos de banding del GIF hicieron que el fuego pareciera parpadear de verdad, lo cual fue interesante
      Me impresionó que la IA reconociera la estructura de una foto dentro de la foto y mantuviera solo la parte del fuego en 2D
    • Los resultados del ejemplo, sinceramente, no impresionan mucho. Si ves el 20% inferior, la calidad cae
  • “¿Qué hace exactamente esto?”

    • Es una técnica que, como en los documentales históricos, separa personas u objetos de fotos antiguas del fondo para darles movimiento tridimensional
      Este software hace eso en menos de un segundo y te genera un modelo 3D
      El Gaussian splatting está especialmente bueno
    • Simula un efecto de paralaje como si cambiaras el ángulo de cámara a partir de una sola imagen 2D
      También separa bien a las personas y puede manejar escenas con varios sujetos
      Funciona con un principio parecido al efecto del modo retrato
    • Convierte una sola foto en una escena 3D aproximada, y si mueves un poco la cámara puedes ver un nuevo punto de vista
      “Photorealistic” significa que mantiene las texturas e iluminación reales
      Es similar a la función Spatial Scene de la app Fotos de Apple — video de demostración
    • Infiere una representación 3D oculta a partir de una sola foto y genera una imagen realista desde un punto de vista ligeramente distinto
    • Básicamente usa estimación de profundidad (depth estimation) para dividir la escena en varios planos, y rellena las partes ocultas con inpainting
      Luego mueve cada plano para implementar el paralaje — parecido al efecto de profundidad de fondo en un juego 2D de desplazamiento lateral
  • Llama la atención que en los ejemplos casi no haya rostros humanos
    Por mi experiencia hasta ahora, este tipo de modelos hacen que las personas se vean como recortes 2D de papel cuando las ves en volumen
    No sé si este modelo realmente podrá representar bien la tridimensionalidad, pero la ausencia de rostros humanos resulta sugerente

  • Lo hizo Apple, pero es solo para GPU CUDA documentación relacionada

    • Curiosamente, el propio modelo de Apple no funciona en MPS
      Parece que habrá que esperar unos años
    • La salida de Gaussian splat sí puede generarse también en CPU
      De todos los repositorios de IA que he probado, este fue de los más fáciles de ejecutar
    • La versión modificada está aquí
    • Esta limitación aplica solo al renderizado de video
      El modelo en sí funciona en GPU, CPU y MPS
    • El modelo funciona incluso sin CUDA
      Obtienes un archivo .ply como resultado y lo puedes meter en el visor SparkJS
      CUDA solo hace falta para renderizar el video con desplazamiento lateral
  • La clave es que “genera una representación 3D realista a partir de una sola foto en menos de un segundo”

  • La función Spatial Scene de la app Fotos de Apple también funciona de forma parecida
    video de demostración

    • Pero el resultado a menudo crea un espacio borroso y antinatural
      Hubo una época en la que el relleno según contenido de Photoshop incluso se veía mejor
  • ¿Hay archivos de muestra de Gaussian splat?

    • Subí los resultados de mis pruebas a este repositorio
      Eso sí, como solo hay un ejemplo, es difícil generalizar
  • Los resultados son impresionantes, pero dan una sensación demasiado afilada y artificial

    • A mí me gustan tanto los resultados de TMPI como los de SHARP
      Aunque TMPI siempre sale más brillante, no sé cuál de los dos es el correcto