- La síntesis tradicional de texto a imagen es posible gracias a modelos de difusión entrenados con decenas de miles de millones de pares imagen-texto
- Para aplicar este enfoque a 3D, se necesitaría un gran conjunto de datos 3D etiquetados y una arquitectura para eliminar ruido, pero no existen
- Por eso, realizan síntesis de texto a 3D aprovechando un modelo de difusión 2D de texto a imagen previamente entrenado
- El modelo 3D generado a partir de texto puede verse desde todos los ángulos, y es posible cambiar la iluminación o integrarlo en otros entornos 3D
Aún no hay comentarios.