- Gemma 3 es la nueva familia de modelos abiertos y ligeros de Google DeepMind, con tamaños de parámetros que van de 1B a 27B
- Mejoras principales:
- Se agregó capacidad multimodal → incluye comprensión visual
- Procesamiento de contexto largo → puede manejar hasta 128K tokens
- Refuerzo del soporte multilingüe → mejor rendimiento en varios idiomas
- Optimización del uso de memoria → reducción del uso de memoria de KV-cache ajustando la proporción de capas de atención local y global (5:1)
- Entrenado con Knowledge Distillation → mejor rendimiento frente a la versión anterior
# Arquitectura del modelo
- Mantiene una arquitectura Transformer solo decodificador
- Introduce Grouped-Query Attention (GQA) → aplica un mecanismo de atención más eficiente
- Configura una proporción de atención local/global de 5:1 → mantiene el tamaño de ventana local en 1024 tokens
- Amplía la frecuencia base de RoPE (Rotary Position Embedding) de 10K a 1M → mejora el soporte para contexto largo
- Codificador visual: usa un codificador basado en SigLIP (400M parámetros)
# Modalidad de visión
- Codificador visual: opera con resolución de 896 x 896
- Aplica la técnica Pan & Scan (P&S) → permite procesar imágenes con proporciones no estándar
- El codificador visual se comparte entre los modelos 4B, 12B y 27B → permanece congelado durante el entrenamiento
# Preentrenamiento (Pre-training)
- El entrenamiento se realizó con Knowledge Distillation
- Cantidad de tokens usados en el entrenamiento:
- 1B → 2T tokens
- 4B → 4T tokens
- 12B → 12T tokens
- 27B → 14T tokens
- Mejora del rendimiento multilingüe → incluye datos monolingües y paralelos
- Proceso de depuración → eliminación de información personal y datos sensibles
# Entrenamiento consciente de cuantización (Quantization Aware Training)
- Se realiza cuantización después del entrenamiento → disponible en varios formatos como int4 y fp8
- Ahorro de memoria:
- En el modelo 27B:
- Original: 54GB → después de cuantizar: mínimo 14.1GB
# Ajuste por instrucciones (Instruction Tuning)
- Aplicación combinada de aprendizaje por refuerzo y Knowledge Distillation
- Mejoras en utilidad, matemáticas, programación, razonamiento y capacidades multilingües
- Principales técnicas usadas en el aprendizaje por refuerzo:
- BOND, WARM, WARP → se aplican técnicas de aprendizaje por refuerzo basadas en recompensas
- Depuración de datos → eliminación de datos innecesarios e información sensible
# Evaluación de rendimiento
Resultados de evaluación en LMSYS Chatbot Arena
- Modelo Gemma 3 27B IT puntaje Elo: 1338 → rendimiento dentro del top 10
- Registra un rendimiento cercano a GPT-4.5 y Grok-3-Preview
- Sube 118 puntos frente a la versión anterior, Gemma 2 27B
Rendimiento en benchmarks estándar
- MMLU-Pro: 67.5 (aprox. 10 puntos más que Gemma 2)
- MATH: 89.0 (aprox. 34 puntos más que Gemma 2)
- LiveCodeBench: 29.7 (aprox. 9 puntos más que Gemma 2)
# Análisis de rendimiento según cambios estructurales
- Proporción de atención local:global → 5:1 es óptima en rendimiento y uso de memoria
- Tamaño de ventana deslizante → 1024 tokens mantiene la eficiencia de memoria sin degradación de rendimiento
- Reducción de memoria de KV cache → 15% menos frente a atención exclusivamente global
# Refuerzo del soporte para contexto largo
- Durante el entrenamiento comenzó en 32K tokens → luego escaló a 128K tokens
- Ajuste de frecuencia de RoPE → expande el contexto sin degradación de rendimiento
# Evaluación del rendimiento del codificador visual
- El rendimiento mejora al aumentar la resolución de entrada:
- De 256 → 896 de resolución el rendimiento sube hasta 20%
- Aumento de rendimiento al aplicar la técnica Pan & Scan:
- DocVQA → +4.8%
- InfoVQA → +17.0%
# Memoria y protección de privacidad
- Disminución de la tasa de memorización (Memorization Rate):
- Gemma 3 reduce el uso de memoria frente a Gemma 2
- Menor riesgo de filtración de información personal
# Responsabilidad, seguridad y protección
- Prevención de contenido dañino según las políticas de seguridad de Google:
- Prevención de abuso infantil, discurso de odio, filtración de información personal, etc.
- Aplicación de aprendizaje por refuerzo reforzado y RLHF → minimiza la generación de contenido dañino
# Conclusión
- Gemma 3 muestra grandes mejoras frente a Gemma 2 en rendimiento multimodal, multilingüe y de contexto largo
- Mejor comprensión visual y mejor rendimiento en matemáticas y programación
- La optimización del uso de memoria mejora tanto el rendimiento como la eficiencia
Aún no hay comentarios.