Gemma 2: mejoras a los modelos de lenguaje abiertos con un tamaño práctico

(ai.google.dev)

10 puntos por haebom 2024-06-28 | 6 comentarios | Compartir por WhatsApp

Puntos clave:

Gemma 2 es una nueva familia de modelos de lenguaje abiertos de última generación y peso ligero, en un rango de 2 mil millones a 27 mil millones de parámetros.
Los modelos de 9 mil millones y 27 mil millones de parámetros ya están disponibles, y el modelo de 2 mil millones llegará pronto.

Principales mejoras técnicas:

Uso alternado de atención local y global
Atención de consulta agrupada
Entrenamiento con destilación de conocimiento para modelos pequeños
Los modelos muestran el mejor rendimiento para su tamaño y son competitivos frente a modelos 2 a 3 veces más grandes.

Arquitectura del modelo:

Arquitectura Transformer solo decodificador
Longitud de contexto de 8192 tokens
Uso alternado de ventana deslizante local (4096 tokens) y capas de atención global
Atención de consulta agrupada (GQA)
RMSNorm para la normalización de capas

Entrenamiento:

El modelo de 27 mil millones fue entrenado con 13 billones de tokens
El modelo de 9 mil millones fue entrenado con 8 billones de tokens
El modelo de 2.6 mil millones fue entrenado con 2 billones de tokens
Fuentes de datos: documentos web, código y artículos científicos
Se usó destilación de conocimiento en los modelos de 2.6 mil millones y 9 mil millones

Rendimiento:

Supera a modelos abiertos comparables en benchmarks
Es competitivo frente a algunos modelos más grandes
Resultados sólidos en tareas de preguntas y respuestas, razonamiento, matemáticas, ciencia y programación

Seguridad y responsabilidad:

Se realizaron pruebas de seguridad extensivas y procesos de despliegue responsable
Se implementaron políticas de seguridad y medidas de mitigación durante el entrenamiento
Se ofrece un toolkit de IA generativa responsable para desarrolladores

6 comentarios

savvykang 2024-06-28

¿Llegará el momento en que podamos ejecutar un LLM solo con CPU?

haebom 2024-06-28

Con alrededor de 20B se puede ejecutar suficientemente bien solo con CPU. A partir de 60B ya le cuesta o directamente no funciona bien. (El entrenamiento ya es otro tema). Prueba ollama.

savvykang 2024-06-28

No tenía ninguna idea de cuáles eran los requisitos, así que gracias por el consejo. Parece que con una laptop Intel de 11.ª generación todavía no alcanza, así que tendré que montarlo en un servidor de virtualización o algo así.

hhkkkk 2024-06-29

Solo instala LM Studio.

savvykang 2024-06-29

La razón por la que dije que en una laptop se sentía demasiado pesado es que el uso del CPU se iba al 100% en todos los núcleos y generaba mucho calor, así que no me pareció una experiencia cómoda. LM Studio tiene una interfaz de usuario para prompts, así que sí es fácil de usar, pero no creo que pueda ofrecer una experiencia fluida.

hhkkkk 2024-06-28

¿Eh..? Pero eso ya se hace;;