2 puntos por GN⁺ 2025-03-13 | Aún no hay comentarios. | Compartir por WhatsApp
  • Gemma 3 es la nueva familia de modelos abiertos y ligeros de Google DeepMind, con tamaños de parámetros que van de 1B a 27B
  • Mejoras principales:
    • Se agregó capacidad multimodal → incluye comprensión visual
    • Procesamiento de contexto largo → puede manejar hasta 128K tokens
    • Refuerzo del soporte multilingüe → mejor rendimiento en varios idiomas
    • Optimización del uso de memoria → reducción del uso de memoria de KV-cache ajustando la proporción de capas de atención local y global (5:1)
  • Entrenado con Knowledge Distillation → mejor rendimiento frente a la versión anterior

# Arquitectura del modelo

  • Mantiene una arquitectura Transformer solo decodificador
  • Introduce Grouped-Query Attention (GQA) → aplica un mecanismo de atención más eficiente
  • Configura una proporción de atención local/global de 5:1 → mantiene el tamaño de ventana local en 1024 tokens
  • Amplía la frecuencia base de RoPE (Rotary Position Embedding) de 10K a 1M → mejora el soporte para contexto largo
  • Codificador visual: usa un codificador basado en SigLIP (400M parámetros)

# Modalidad de visión

  • Codificador visual: opera con resolución de 896 x 896
  • Aplica la técnica Pan & Scan (P&S) → permite procesar imágenes con proporciones no estándar
  • El codificador visual se comparte entre los modelos 4B, 12B y 27B → permanece congelado durante el entrenamiento

# Preentrenamiento (Pre-training)

  • El entrenamiento se realizó con Knowledge Distillation
  • Cantidad de tokens usados en el entrenamiento:
    • 1B → 2T tokens
    • 4B → 4T tokens
    • 12B → 12T tokens
    • 27B → 14T tokens
  • Mejora del rendimiento multilingüe → incluye datos monolingües y paralelos
  • Proceso de depuración → eliminación de información personal y datos sensibles

# Entrenamiento consciente de cuantización (Quantization Aware Training)

  • Se realiza cuantización después del entrenamiento → disponible en varios formatos como int4 y fp8
  • Ahorro de memoria:
    • En el modelo 27B:
      • Original: 54GB → después de cuantizar: mínimo 14.1GB

# Ajuste por instrucciones (Instruction Tuning)

  • Aplicación combinada de aprendizaje por refuerzo y Knowledge Distillation
  • Mejoras en utilidad, matemáticas, programación, razonamiento y capacidades multilingües
  • Principales técnicas usadas en el aprendizaje por refuerzo:
    • BOND, WARM, WARP → se aplican técnicas de aprendizaje por refuerzo basadas en recompensas
  • Depuración de datos → eliminación de datos innecesarios e información sensible

# Evaluación de rendimiento

Resultados de evaluación en LMSYS Chatbot Arena

  • Modelo Gemma 3 27B IT puntaje Elo: 1338 → rendimiento dentro del top 10
  • Registra un rendimiento cercano a GPT-4.5 y Grok-3-Preview
  • Sube 118 puntos frente a la versión anterior, Gemma 2 27B

Rendimiento en benchmarks estándar

  • MMLU-Pro: 67.5 (aprox. 10 puntos más que Gemma 2)
  • MATH: 89.0 (aprox. 34 puntos más que Gemma 2)
  • LiveCodeBench: 29.7 (aprox. 9 puntos más que Gemma 2)

# Análisis de rendimiento según cambios estructurales

  • Proporción de atención local:global → 5:1 es óptima en rendimiento y uso de memoria
  • Tamaño de ventana deslizante → 1024 tokens mantiene la eficiencia de memoria sin degradación de rendimiento
  • Reducción de memoria de KV cache → 15% menos frente a atención exclusivamente global

# Refuerzo del soporte para contexto largo

  • Durante el entrenamiento comenzó en 32K tokens → luego escaló a 128K tokens
  • Ajuste de frecuencia de RoPE → expande el contexto sin degradación de rendimiento

# Evaluación del rendimiento del codificador visual

  • El rendimiento mejora al aumentar la resolución de entrada:
    • De 256 → 896 de resolución el rendimiento sube hasta 20%
  • Aumento de rendimiento al aplicar la técnica Pan & Scan:
    • DocVQA → +4.8%
    • InfoVQA → +17.0%

# Memoria y protección de privacidad

  • Disminución de la tasa de memorización (Memorization Rate):
    • Gemma 3 reduce el uso de memoria frente a Gemma 2
    • Menor riesgo de filtración de información personal

# Responsabilidad, seguridad y protección

  • Prevención de contenido dañino según las políticas de seguridad de Google:
    • Prevención de abuso infantil, discurso de odio, filtración de información personal, etc.
  • Aplicación de aprendizaje por refuerzo reforzado y RLHF → minimiza la generación de contenido dañino

# Conclusión

  • Gemma 3 muestra grandes mejoras frente a Gemma 2 en rendimiento multimodal, multilingüe y de contexto largo
  • Mejor comprensión visual y mejor rendimiento en matemáticas y programación
  • La optimización del uso de memoria mejora tanto el rendimiento como la eficiencia

Aún no hay comentarios.

Aún no hay comentarios.