- Janus-Pro: versión mejorada de un modelo unificado de comprensión y generación multimodal
- Es una evolución del modelo Janus existente e incluye las siguientes mejoras
- estrategia de entrenamiento optimizada
- expansión de los datos de entrenamiento
- escalado a un tamaño de modelo mayor
- Objetivo: mejorar el rendimiento en comprensión multimodal y generación de texto a imagen, y reforzar la estabilidad de generación
Mejoras principales de rendimiento
Comprensión multimodal
- Janus-Pro registró la puntuación más alta, 79.2, en el benchmark de comprensión multimodal MMBench
- Logró un rendimiento superior al de modelos previos como Janus, TokenFlow y MetaMorph
- Separa la codificación visual para aliviar los conflictos entre comprensión y generación
Generación de texto a imagen
- En el benchmark GenEval superó a DALL-E 3 (67%) y SD3-Medium (74%) con una precisión de 80%
- Obtuvo 84.19 puntos en DPG-Bench, con mejor rendimiento que todos los demás modelos
Estructura del modelo y mejoras
Arquitectura del modelo
- Separa la codificación visual para la comprensión multimodal y la generación
- Usa un encoder SigLIP para extraer características semánticas de alta dimensión
- El decodificador de imágenes convierte las imágenes en IDs y las conecta como entrada para el LLM
Estrategia de entrenamiento optimizada
- Entrenamiento por etapas: mejora la ineficiencia de la estrategia anterior de 3 etapas
- aplica un tiempo de entrenamiento más largo con datos de ImageNet (Stage I)
- concentra el entrenamiento solo en datos de texto a imagen (Stage II)
- Ajuste de proporción de datos: reduce la proporción de datos de texto a imagen y fortalece el rendimiento de comprensión multimodal
Escalado de datos y del modelo
- Expansión de datos:
- se agregaron 90 millones de muestras para comprensión multimodal
- se reforzaron los datos de generación de texto a imagen con 70 millones de datos estéticos sintéticos
- Escalado del modelo:
- pasó de 1.5B a 7B, mejorando ampliamente la eficiencia de entrenamiento y el rendimiento
Experimentos y evaluación
Comparación de rendimiento
- Janus-Pro-7B mostró el mejor rendimiento frente a modelos del mismo tamaño
- superó a modelos de gran escala como TokenFlow-XL (13B) en comprensión multimodal y generación
- También mejoraron tanto la estabilidad de las imágenes generadas como su calidad estética
Limitaciones
- La baja resolución (384 × 384) es limitada para tareas detalladas como OCR
- Faltan detalles finos en la generación de texto a imagen
Conclusión
- Janus-Pro representa un avance importante en estrategia de entrenamiento, datos y tamaño del modelo
- Alcanzó rendimiento líder tanto en comprensión multimodal como en generación de texto a imagen
- En el futuro planean resolver tareas más detalladas mediante mejoras en la resolución
Aún no hay comentarios.