Puntos clave:
Gemma 2 es una nueva familia de modelos de lenguaje abiertos de última generación y peso ligero, en un rango de 2 mil millones a 27 mil millones de parámetros.
Los modelos de 9 mil millones y 27 mil millones de parámetros ya están disponibles, y el modelo de 2 mil millones llegará pronto.
Principales mejoras técnicas:
- Uso alternado de atención local y global
- Atención de consulta agrupada
- Entrenamiento con destilación de conocimiento para modelos pequeños
Los modelos muestran el mejor rendimiento para su tamaño y son competitivos frente a modelos 2 a 3 veces más grandes.
Arquitectura del modelo:
- Arquitectura Transformer solo decodificador
- Longitud de contexto de 8192 tokens
- Uso alternado de ventana deslizante local (4096 tokens) y capas de atención global
- Atención de consulta agrupada (GQA)
- RMSNorm para la normalización de capas
Entrenamiento:
- El modelo de 27 mil millones fue entrenado con 13 billones de tokens
- El modelo de 9 mil millones fue entrenado con 8 billones de tokens
- El modelo de 2.6 mil millones fue entrenado con 2 billones de tokens
- Fuentes de datos: documentos web, código y artículos científicos
- Se usó destilación de conocimiento en los modelos de 2.6 mil millones y 9 mil millones
Rendimiento:
- Supera a modelos abiertos comparables en benchmarks
- Es competitivo frente a algunos modelos más grandes
- Resultados sólidos en tareas de preguntas y respuestas, razonamiento, matemáticas, ciencia y programación
Seguridad y responsabilidad:
- Se realizaron pruebas de seguridad extensivas y procesos de despliegue responsable
- Se implementaron políticas de seguridad y medidas de mitigación durante el entrenamiento
- Se ofrece un toolkit de IA generativa responsable para desarrolladores
6 comentarios
¿Llegará el momento en que podamos ejecutar un LLM solo con CPU?
Con alrededor de 20B se puede ejecutar suficientemente bien solo con CPU. A partir de 60B ya le cuesta o directamente no funciona bien. (El entrenamiento ya es otro tema). Prueba
ollama.No tenía ninguna idea de cuáles eran los requisitos, así que gracias por el consejo. Parece que con una laptop Intel de 11.ª generación todavía no alcanza, así que tendré que montarlo en un servidor de virtualización o algo así.
Solo instala LM Studio.
La razón por la que dije que en una laptop se sentía demasiado pesado es que el uso del CPU se iba al 100% en todos los núcleos y generaba mucho calor, así que no me pareció una experiencia cómoda. LM Studio tiene una interfaz de usuario para prompts, así que sí es fácil de usar, pero no creo que pueda ofrecer una experiencia fluida.
¿Eh..? Pero eso ya se hace;;