DeepSeek presenta Janus Pro, su modelo de generación de texto a imagen [PDF]

(github.com/deepseek-ai)

5 puntos por GN⁺ 2025-01-28 | Aún no hay comentarios. | Compartir por WhatsApp

Janus-Pro: versión mejorada de un modelo unificado de comprensión y generación multimodal
Es una evolución del modelo Janus existente e incluye las siguientes mejoras
- estrategia de entrenamiento optimizada
- expansión de los datos de entrenamiento
- escalado a un tamaño de modelo mayor
Objetivo: mejorar el rendimiento en comprensión multimodal y generación de texto a imagen, y reforzar la estabilidad de generación

Mejoras principales de rendimiento

Comprensión multimodal

Janus-Pro registró la puntuación más alta, 79.2, en el benchmark de comprensión multimodal MMBench
Logró un rendimiento superior al de modelos previos como Janus, TokenFlow y MetaMorph
Separa la codificación visual para aliviar los conflictos entre comprensión y generación

Generación de texto a imagen

En el benchmark GenEval superó a DALL-E 3 (67%) y SD3-Medium (74%) con una precisión de 80%
Obtuvo 84.19 puntos en DPG-Bench, con mejor rendimiento que todos los demás modelos

Estructura del modelo y mejoras

Arquitectura del modelo

Separa la codificación visual para la comprensión multimodal y la generación
Usa un encoder SigLIP para extraer características semánticas de alta dimensión
El decodificador de imágenes convierte las imágenes en IDs y las conecta como entrada para el LLM

Estrategia de entrenamiento optimizada

Entrenamiento por etapas: mejora la ineficiencia de la estrategia anterior de 3 etapas
- aplica un tiempo de entrenamiento más largo con datos de ImageNet (Stage I)
- concentra el entrenamiento solo en datos de texto a imagen (Stage II)
Ajuste de proporción de datos: reduce la proporción de datos de texto a imagen y fortalece el rendimiento de comprensión multimodal

Escalado de datos y del modelo

Expansión de datos:
- se agregaron 90 millones de muestras para comprensión multimodal
- se reforzaron los datos de generación de texto a imagen con 70 millones de datos estéticos sintéticos
Escalado del modelo:
- pasó de 1.5B a 7B, mejorando ampliamente la eficiencia de entrenamiento y el rendimiento

Experimentos y evaluación

Comparación de rendimiento

Janus-Pro-7B mostró el mejor rendimiento frente a modelos del mismo tamaño
- superó a modelos de gran escala como TokenFlow-XL (13B) en comprensión multimodal y generación
También mejoraron tanto la estabilidad de las imágenes generadas como su calidad estética

Limitaciones

La baja resolución (384 × 384) es limitada para tareas detalladas como OCR
Faltan detalles finos en la generación de texto a imagen

Conclusión

Janus-Pro representa un avance importante en estrategia de entrenamiento, datos y tamaño del modelo
Alcanzó rendimiento líder tanto en comprensión multimodal como en generación de texto a imagen
En el futuro planean resolver tareas más detalladas mediante mejoras en la resolución

Aún no hay comentarios.

Aún no hay comentarios.