Informe técnico de Gemma 3 de Google DeepMind [pdf]

(storage.googleapis.com)

2 puntos por GN⁺ 2025-03-13 | Aún no hay comentarios. | Compartir por WhatsApp

Gemma 3 es la nueva familia de modelos abiertos y ligeros de Google DeepMind, con tamaños de parámetros que van de 1B a 27B
Mejoras principales:
- Se agregó capacidad multimodal → incluye comprensión visual
- Procesamiento de contexto largo → puede manejar hasta 128K tokens
- Refuerzo del soporte multilingüe → mejor rendimiento en varios idiomas
- Optimización del uso de memoria → reducción del uso de memoria de KV-cache ajustando la proporción de capas de atención local y global (5:1)
Entrenado con Knowledge Distillation → mejor rendimiento frente a la versión anterior

Mantiene una arquitectura Transformer solo decodificador
Introduce Grouped-Query Attention (GQA) → aplica un mecanismo de atención más eficiente
Configura una proporción de atención local/global de 5:1 → mantiene el tamaño de ventana local en 1024 tokens
Amplía la frecuencia base de RoPE (Rotary Position Embedding) de 10K a 1M → mejora el soporte para contexto largo
Codificador visual: usa un codificador basado en SigLIP (400M parámetros)

Codificador visual: opera con resolución de 896 x 896
Aplica la técnica Pan & Scan (P&S) → permite procesar imágenes con proporciones no estándar
El codificador visual se comparte entre los modelos 4B, 12B y 27B → permanece congelado durante el entrenamiento

El entrenamiento se realizó con Knowledge Distillation
Cantidad de tokens usados en el entrenamiento:
- 1B → 2T tokens
- 4B → 4T tokens
- 12B → 12T tokens
- 27B → 14T tokens
Mejora del rendimiento multilingüe → incluye datos monolingües y paralelos
Proceso de depuración → eliminación de información personal y datos sensibles

Se realiza cuantización después del entrenamiento → disponible en varios formatos como int4 y fp8
Ahorro de memoria:
- En el modelo 27B:
  - Original: 54GB → después de cuantizar: mínimo 14.1GB

Aplicación combinada de aprendizaje por refuerzo y Knowledge Distillation
Mejoras en utilidad, matemáticas, programación, razonamiento y capacidades multilingües
Principales técnicas usadas en el aprendizaje por refuerzo:
- BOND, WARM, WARP → se aplican técnicas de aprendizaje por refuerzo basadas en recompensas
Depuración de datos → eliminación de datos innecesarios e información sensible

Proporción de atención local:global → 5:1 es óptima en rendimiento y uso de memoria
Tamaño de ventana deslizante → 1024 tokens mantiene la eficiencia de memoria sin degradación de rendimiento
Reducción de memoria de KV cache → 15% menos frente a atención exclusivamente global

Durante el entrenamiento comenzó en 32K tokens → luego escaló a 128K tokens
Ajuste de frecuencia de RoPE → expande el contexto sin degradación de rendimiento

El rendimiento mejora al aumentar la resolución de entrada:
- De 256 → 896 de resolución el rendimiento sube hasta 20%
Aumento de rendimiento al aplicar la técnica Pan & Scan:
- DocVQA → +4.8%
- InfoVQA → +17.0%

Disminución de la tasa de memorización (Memorization Rate):
- Gemma 3 reduce el uso de memoria frente a Gemma 2
- Menor riesgo de filtración de información personal

Prevención de contenido dañino según las políticas de seguridad de Google:
- Prevención de abuso infantil, discurso de odio, filtración de información personal, etc.
Aplicación de aprendizaje por refuerzo reforzado y RLHF → minimiza la generación de contenido dañino

Gemma 3 muestra grandes mejoras frente a Gemma 2 en rendimiento multimodal, multilingüe y de contexto largo
Mejor comprensión visual y mejor rendimiento en matemáticas y programación
La optimización del uso de memoria mejora tanto el rendimiento como la eficiencia

Lecturas relacionadas