- SHARP es un modelo que toma una sola imagen como entrada y la convierte en una representación gaussiana 3D para generar vistas 3D realistas
- Predice los parámetros de la escena 3D con una sola inferencia de red neuronal en menos de 1 segundo sobre una GPU estándar
- La representación 3D generada permite renderizado en tiempo real y admite movimiento métrico de cámara con escala absoluta
- En varios datasets, logra mejoras de 25–34% en LPIPS y 21–43% en DISTS, además de una velocidad de síntesis cientos de veces superior frente a modelos previos
- Se publica como open source, por lo que los desarrolladores pueden ejecutar directamente la predicción y el renderizado basados en CLI e integrarlo con distintos renderizadores 3D
Resumen de SHARP
- SHARP (Sharp Monocular View Synthesis) es un enfoque para generar vistas 3D fotorrealistas a partir de una sola foto
- Estima mediante regresión los parámetros de una representación Gaussian 3D con base en la imagen de entrada
- Logra tiempos de procesamiento de menos de 1 segundo en una GPU estándar con una sola pasada feed-forward
- La representación Gaussian 3D generada permite renderizado en tiempo real y ofrece imágenes de alta resolución desde puntos de vista cercanos
- La representación tiene una estructura métrica con escala absoluta, lo que permite movimientos reales de cámara
Rendimiento y generalización
- En los experimentos, SHARP muestra rendimiento de generalización zero-shot en distintos datasets
- Frente a modelos previos de mejor desempeño, reduce LPIPS en 25–34% y DISTS en 21–43%
- El tiempo de síntesis se reduce en tres órdenes de magnitud, es decir, un procesamiento cerca de 1000 veces más rápido que antes
Instalación y ejecución
- Puede ejecutarse en un entorno con Python 3.13, e instalar dependencias con
pip install -r requirements.txt
- La predicción puede ejecutarse desde la interfaz de línea de comandos (CLI) de la siguiente manera
sharp predict -i 입력경로 -o 출력경로
- En la primera ejecución, el checkpoint del modelo se descarga automáticamente y se guarda en la caché local
- En caso de descarga manual, puede especificarse con la opción
-c
- El resultado se guarda como un archivo
.ply en formato 3D Gaussian Splat (3DGS) y es compatible con renderizadores públicos de 3DGS
Funciones de renderizado
- En un entorno con GPU CUDA, es posible hacer renderizado de video siguiendo una trayectoria de cámara
- Usa la opción
--render para ejecutar predicción y renderizado al mismo tiempo
- O bien, puede ejecutarse un renderizado por separado usando el resultado intermedio (
.ply)
- Sigue el sistema de coordenadas de OpenCV (x a la derecha, y hacia abajo, z al frente), y al usar renderizadores externos se requiere ajuste de escala y rotación
Evaluación y materiales de referencia
- Los resultados de evaluación cuantitativa y cualitativa están incluidos en el paper
- En la página del proyecto pueden verse ejemplos de videos comparativos
Licencia y cita
- El código y el modelo pueden usarse conforme a las condiciones de los archivos LICENSE y LICENSE_MODEL, respectivamente
- Para citar la investigación, consulta el paper de arXiv “Sharp Monocular View Synthesis in Less Than a Second (2025)”
- La base del código fue construida sobre varias contribuciones open source
1 comentarios
Comentarios en Hacker News
En HN volvió a llamar la atención el proyecto SHARP de Apple
También hubo una discusión relacionada en un hilo anterior
El material oficial de SHARP puede consultarse en la página del proyecto y en el paper (arXiv)
La licencia del modelo especifica que es “solo para fines de investigación”, así que en realidad no es open source
Un usuario comentó que ya hizo un fork del proyecto para que pueda renderizar en MPS, y compartió su repositorio en GitHub
Alguien dejó un comentario en tono de broma diciendo que era “un gran día para el porno VR”
El modelo solo infiere sobre un eje, la resolución está limitada a 768px + 2 capas, y además no puede hacer procesamiento en tiempo real
Agregó que este año ha habido innovaciones más grandes del lado de edición de imágenes y modelos de video
Se comentó que “cada vez que una gran empresa publica un modelo, vuelve a repetirse la discusión sobre la definición de open source”, señalando que el concepto de ‘código fuente’ en modelos de IA es distinto al del software
Se analizó que Apple parece querer ganar credibilidad académica mientras mantiene sus opciones comerciales
Se mencionó que “la gente suele tomar varias fotos del mismo objeto, así que en la práctica eso equivale a proporcionar datos de imágenes estereoscópicas”
Un usuario dijo que no le gusta Conda, así que duda en probarlo
uv, incluso sin CondaUn usuario comentó que, durante sus vacaciones, está experimentando con proyectos relacionados como StereoCrafter y GeometryCrafter,
y que al aplicarlo a video resulta mucho más difícil y costoso computacionalmente por el problema de la consistencia temporal (temporal consistency),
pero que al espacializar viejos videos caseros de la época de la Guerra de Corea funcionó sorprendentemente bien
Enlace a StereoCrafter, enlace a GeometryCrafter