5 puntos por GN⁺ 2025-01-28 | Aún no hay comentarios. | Compartir por WhatsApp
  • Janus-Pro: versión mejorada de un modelo unificado de comprensión y generación multimodal
  • Es una evolución del modelo Janus existente e incluye las siguientes mejoras
    • estrategia de entrenamiento optimizada
    • expansión de los datos de entrenamiento
    • escalado a un tamaño de modelo mayor
  • Objetivo: mejorar el rendimiento en comprensión multimodal y generación de texto a imagen, y reforzar la estabilidad de generación

Mejoras principales de rendimiento

Comprensión multimodal

  • Janus-Pro registró la puntuación más alta, 79.2, en el benchmark de comprensión multimodal MMBench
  • Logró un rendimiento superior al de modelos previos como Janus, TokenFlow y MetaMorph
  • Separa la codificación visual para aliviar los conflictos entre comprensión y generación

Generación de texto a imagen

  • En el benchmark GenEval superó a DALL-E 3 (67%) y SD3-Medium (74%) con una precisión de 80%
  • Obtuvo 84.19 puntos en DPG-Bench, con mejor rendimiento que todos los demás modelos

Estructura del modelo y mejoras

Arquitectura del modelo

  • Separa la codificación visual para la comprensión multimodal y la generación
  • Usa un encoder SigLIP para extraer características semánticas de alta dimensión
  • El decodificador de imágenes convierte las imágenes en IDs y las conecta como entrada para el LLM

Estrategia de entrenamiento optimizada

  • Entrenamiento por etapas: mejora la ineficiencia de la estrategia anterior de 3 etapas
    • aplica un tiempo de entrenamiento más largo con datos de ImageNet (Stage I)
    • concentra el entrenamiento solo en datos de texto a imagen (Stage II)
  • Ajuste de proporción de datos: reduce la proporción de datos de texto a imagen y fortalece el rendimiento de comprensión multimodal

Escalado de datos y del modelo

  • Expansión de datos:
    • se agregaron 90 millones de muestras para comprensión multimodal
    • se reforzaron los datos de generación de texto a imagen con 70 millones de datos estéticos sintéticos
  • Escalado del modelo:
    • pasó de 1.5B a 7B, mejorando ampliamente la eficiencia de entrenamiento y el rendimiento

Experimentos y evaluación

Comparación de rendimiento

  • Janus-Pro-7B mostró el mejor rendimiento frente a modelos del mismo tamaño
    • superó a modelos de gran escala como TokenFlow-XL (13B) en comprensión multimodal y generación
  • También mejoraron tanto la estabilidad de las imágenes generadas como su calidad estética

Limitaciones

  • La baja resolución (384 × 384) es limitada para tareas detalladas como OCR
  • Faltan detalles finos en la generación de texto a imagen

Conclusión

  • Janus-Pro representa un avance importante en estrategia de entrenamiento, datos y tamaño del modelo
  • Alcanzó rendimiento líder tanto en comprensión multimodal como en generación de texto a imagen
  • En el futuro planean resolver tareas más detalladas mediante mejoras en la resolución

Aún no hay comentarios.

Aún no hay comentarios.