6 puntos por GN⁺ 2025-12-28 | 1 comentarios | Compartir por WhatsApp
  • SHARP es un modelo que toma una sola imagen como entrada y la convierte en una representación gaussiana 3D para generar vistas 3D realistas
  • Predice los parámetros de la escena 3D con una sola inferencia de red neuronal en menos de 1 segundo sobre una GPU estándar
  • La representación 3D generada permite renderizado en tiempo real y admite movimiento métrico de cámara con escala absoluta
  • En varios datasets, logra mejoras de 25–34% en LPIPS y 21–43% en DISTS, además de una velocidad de síntesis cientos de veces superior frente a modelos previos
  • Se publica como open source, por lo que los desarrolladores pueden ejecutar directamente la predicción y el renderizado basados en CLI e integrarlo con distintos renderizadores 3D

Resumen de SHARP

  • SHARP (Sharp Monocular View Synthesis) es un enfoque para generar vistas 3D fotorrealistas a partir de una sola foto
    • Estima mediante regresión los parámetros de una representación Gaussian 3D con base en la imagen de entrada
    • Logra tiempos de procesamiento de menos de 1 segundo en una GPU estándar con una sola pasada feed-forward
  • La representación Gaussian 3D generada permite renderizado en tiempo real y ofrece imágenes de alta resolución desde puntos de vista cercanos
  • La representación tiene una estructura métrica con escala absoluta, lo que permite movimientos reales de cámara

Rendimiento y generalización

  • En los experimentos, SHARP muestra rendimiento de generalización zero-shot en distintos datasets
  • Frente a modelos previos de mejor desempeño, reduce LPIPS en 25–34% y DISTS en 21–43%
  • El tiempo de síntesis se reduce en tres órdenes de magnitud, es decir, un procesamiento cerca de 1000 veces más rápido que antes

Instalación y ejecución

  • Puede ejecutarse en un entorno con Python 3.13, e instalar dependencias con pip install -r requirements.txt
  • La predicción puede ejecutarse desde la interfaz de línea de comandos (CLI) de la siguiente manera
    • sharp predict -i 입력경로 -o 출력경로
    • En la primera ejecución, el checkpoint del modelo se descarga automáticamente y se guarda en la caché local
    • En caso de descarga manual, puede especificarse con la opción -c
  • El resultado se guarda como un archivo .ply en formato 3D Gaussian Splat (3DGS) y es compatible con renderizadores públicos de 3DGS

Funciones de renderizado

  • En un entorno con GPU CUDA, es posible hacer renderizado de video siguiendo una trayectoria de cámara
    • Usa la opción --render para ejecutar predicción y renderizado al mismo tiempo
    • O bien, puede ejecutarse un renderizado por separado usando el resultado intermedio (.ply)
  • Sigue el sistema de coordenadas de OpenCV (x a la derecha, y hacia abajo, z al frente), y al usar renderizadores externos se requiere ajuste de escala y rotación

Evaluación y materiales de referencia

  • Los resultados de evaluación cuantitativa y cualitativa están incluidos en el paper
  • En la página del proyecto pueden verse ejemplos de videos comparativos

Licencia y cita

  • El código y el modelo pueden usarse conforme a las condiciones de los archivos LICENSE y LICENSE_MODEL, respectivamente
  • Para citar la investigación, consulta el paper de arXiv “Sharp Monocular View Synthesis in Less Than a Second (2025)”
  • La base del código fue construida sobre varias contribuciones open source

1 comentarios

 
GN⁺ 2025-12-28
Comentarios en Hacker News
  • En HN volvió a llamar la atención el proyecto SHARP de Apple
    También hubo una discusión relacionada en un hilo anterior

    • Se volvió a compartir una publicación presentada con el título “SHARP, an approach to photorealistic view synthesis from a single image”
    • Se señaló que la guía de instalación en GitHub relacionada con IA no funciona bien. Da por hecho que la mayor parte del entorno de desarrollo ya está configurado, así que la barrera de entrada es alta para principiantes
  • El material oficial de SHARP puede consultarse en la página del proyecto y en el paper (arXiv)

    • Un usuario comentó que el video demo de Bradley le pareció mucho más impresionante que la página oficial
    • Otro usuario expresó curiosidad sobre los cambios en la composición del personal STEM, diciendo que todos los autores parecían ser de origen extranjero
  • La licencia del modelo especifica que es “solo para fines de investigación”, así que en realidad no es open source

    • En el README tampoco se menciona que sea open source; solo dice que fue construido sobre una base open source
    • Se señaló que, por la influencia de Meta al distorsionar el significado de “open source”, ahora existe la tendencia a entender simplemente publicar los pesos = open source
    • Un usuario dijo que “los pesos quizá no estén sujetos a copyright”, y que al final lo importante es la validez legal que Apple realmente pueda hacer cumplir
    • Parece que la confusión surgió porque la licencia principal no especifica restricciones
    • Un usuario dijo que “va a investigar si con esto se puede crear un producto rentable”
  • Un usuario comentó que ya hizo un fork del proyecto para que pueda renderizar en MPS, y compartió su repositorio en GitHub

    • Otro usuario respondió con un agradecimiento, diciendo que “se ve bien”
  • Alguien dejó un comentario en tono de broma diciendo que era “un gran día para el porno VR”

    • Ante eso, otro usuario explicó que en realidad las limitaciones de calidad del contenido VR son claras.
      El modelo solo infiere sobre un eje, la resolución está limitada a 768px + 2 capas, y además no puede hacer procesamiento en tiempo real
      Agregó que este año ha habido innovaciones más grandes del lado de edición de imágenes y modelos de video
    • Otro usuario bromeó con que el término “Gaussian splat” le suena a algo completamente distinto
  • Se comentó que “cada vez que una gran empresa publica un modelo, vuelve a repetirse la discusión sobre la definición de open source”, señalando que el concepto de ‘código fuente’ en modelos de IA es distinto al del software
    Se analizó que Apple parece querer ganar credibilidad académica mientras mantiene sus opciones comerciales

    • Otro usuario dijo que “es una lástima que la discusión sobre la licencia ocupe la parte alta cuando la tecnología en sí es asombrosa”, y evaluó que la verdadera fortaleza de Apple está en permitir experimentar fotos antiguas en VR
    • Otro usuario bromeó diciendo que la expresión “which isn’t unsurprising” es demasiado complicada
    • También siguieron las bromas del tipo “es sorprendente que no sea sorprendente”
  • Se mencionó que “la gente suele tomar varias fotos del mismo objeto, así que en la práctica eso equivale a proporcionar datos de imágenes estereoscópicas

    • Otro usuario añadió que “también podrían aprovecharse los frames de Live Photo”
  • Un usuario dijo que no le gusta Conda, así que duda en probarlo

    • Otro usuario recomendó pixi y compartió comandos de instalación concretos, explicando que en realidad basta con Python 3.13 y uv, incluso sin Conda
    • Otro usuario coincidió diciendo que “ese no es un disgusto irracional”
  • Un usuario comentó que, durante sus vacaciones, está experimentando con proyectos relacionados como StereoCrafter y GeometryCrafter,
    y que al aplicarlo a video resulta mucho más difícil y costoso computacionalmente por el problema de la consistencia temporal (temporal consistency),
    pero que al espacializar viejos videos caseros de la época de la Guerra de Corea funcionó sorprendentemente bien
    Enlace a StereoCrafter, enlace a GeometryCrafter

    • Otro usuario respondió: “definitivamente quiero ver ese ejemplo”