6 puntos por GN⁺ 5 시간 전 | Aún no hay comentarios. | Compartir por WhatsApp
  • A medida que los LLM de pesos abiertos publicados recientemente se enfocan en la eficiencia de contexto largo, están aumentando rápidamente los trucos arquitectónicos para reducir el tamaño de la caché KV, el tráfico de memoria y el costo de atención
  • Gemma 4 mejora a la vez la eficiencia de la caché KV y de los parámetros mediante compartición de KV entre capas (cross-layer attention) y per-layer embeddings (PLE)
  • Laguna XS.2 introduce layer-wise attention budgeting, que asigna una cantidad distinta de cabezas de consulta según la capa
  • ZAYA1-8B realiza directamente la operación de atención en un espacio latente comprimido con Compressed Convolutional Attention (CCA), reduciendo no solo la caché KV sino también los FLOPs de atención
  • DeepSeek V4 amplía la ruta residual con mHC (Manifold-Constrained Hyper-Connections) y comprime la longitud de secuencia con CSA/HCA, reduciendo drásticamente los FLOPs y la caché KV frente a V3.2 en un contexto de 1M tokens

Resumen general: arquitecturas recientes centradas en la eficiencia de contexto largo

  • A medida que los modelos de razonamiento (reasoning) y los flujos de trabajo con agentes mantienen más tokens durante más tiempo, el tamaño de la caché KV, el tráfico de memoria y el costo de atención se han convertido en restricciones clave
  • Puntos de diseño nuevos que aparecieron en los principales modelos de pesos abiertos publicados entre abril y mayo
    • Gemma 4: KV sharing y per-layer embeddings
    • Laguna XS.2: layer-wise attention budgeting
    • ZAYA1-8B: compressed convolutional attention
    • DeepSeek V4: mHC + compressed attention
  • El texto se enfoca en los cambios internos en bloques Transformer, flujo residual, caché KV y operaciones de atención, y no en mezcla de datos, calendario de entrenamiento, post-training, recetas de RL ni benchmarks

1. Gemma 4: reducción de caché mediante compartición de KV entre capas

  • La familia Gemma 4, publicada por Google a inicios de abril, se compone de 3 categorías
    • Gemma 4 E2B/E4B: modelos pequeños para dispositivos móviles y embebidos (IoT)
    • Gemma 4 26B MoE: modelo MoE optimizado para inferencia local eficiente
    • Gemma 4 31B dense: modelo denso para máxima calidad y facilidad de post-training
  • Introducción de KV sharing (cross-layer attention)

    • Las capas de la parte final no calculan sus propias proyecciones K/V, sino que reutilizan los tensores KV de la capa previa no compartida más cercana del mismo tipo de atención
    • Las capas de sliding window comparten KV con la capa previa de sliding window, y las capas de full-attention con la capa previa de full-attention
    • Como cada capa sí calcula su propia proyección de consulta, se mantienen los patrones de atención específicos por capa
    • En Gemma 4 E2B, de 35 capas Transformer, solo las primeras 15 calculan su propio KV; las últimas 20 reutilizan
    • En Gemma 4 E4B, solo 24 de 42 capas calculan su propio KV, y las últimas 18 reutilizan
  • Efecto del ahorro

    • Al compartir aproximadamente la mitad del KV, el tamaño de la caché KV se reduce casi a la mitad
    • Con contexto largo de 128K (bfloat16), E2B ahorra 2.7 GB y E4B alrededor de 6 GB
  • Limitaciones

    • Compartir KV es un tipo de aproximación, por lo que reduce la capacidad del modelo
    • Según el paper sobre cross-layer attention, el impacto fue mínimo en los modelos pequeños evaluados
  • El concepto en sí se basa en Brandon et al., "Reducing Transformer Key-Value Cache Size with Cross-Layer Attention" (NeurIPS 2024), y Gemma 4 es el primer caso de aplicación en una arquitectura ampliamente conocida

2. Per-Layer Embeddings (PLE) de Gemma 4 E2B/E4B y el tamaño "Effective"

  • PLE es un diseño de eficiencia separado del KV sharing, enfocado en la eficiencia de parámetros
  • La "E" significa effective

    • Gemma 4 E2B: 2.3B effective parameters, 5.1B incluyendo embeddings
    • Gemma 4 E4B: 4.5B effective parameters, 8B incluyendo embeddings
    • El cómputo principal del stack Transformer se acerca a la cifra pequeña, mientras que la cifra grande incluye capas adicionales de tablas de embeddings
  • Estructura de PLE

    • Los vectores PLE se preparan fuera del bloque Transformer repetido
    • El ID del token pasa por un lookup de embedding por capa, y el embedding normal del token se proyecta linealmente al mismo espacio PLE
    • Se suman ambos resultados y, tras escalado y reshape, se genera un tensor con un slice por capa
    • Cada capa l recibe solo su propio slice (ple_l)
  • Funcionamiento dentro del bloque Transformer

    • Las actualizaciones residuales de atención y feedforward se realizan como de costumbre
    • Después del segundo residual add, el hidden state z aplica gating al vector PLE de la capa
    • El vector PLE con gating se vuelve a proyectar al hidden size del modelo, se normaliza y se suma como una actualización residual adicional
  • Objetivo de PLE

    • Mantener los bloques Transformer costosos cerca de un tamaño "effective" pequeño
    • La capacidad adicional se almacena en tablas de embeddings por capa, que al basarse en lookup son mucho más baratas que agregar más pesos de atención o FFN
    • A diferencia de la alternativa de simplemente achicar un modelo denso, no sacrifica la capacidad de la parte principal de cómputo
  • En principio, PLE no está limitado solo a modelos pequeños, pero los modelos grandes ya tienen suficiente capacidad y pueden ampliarla con MoE

3. Laguna XS.2: Layer-Wise Attention Budgeting

  • Laguna es el primer modelo de pesos abiertos de Poolside, una empresa europea centrada en LLM para aplicaciones de código
  • Configuración básica

    • 40 capas en total, de las cuales 30 usan sliding window attention y 10 usan global/full attention
    • Tamaño de ventana de las capas sliding window: 512 tokens
    • El patrón mixto de sliding window + global también se usa en otras arquitecturas como Gemma 4
  • Lo nuevo: diferenciar la cantidad de cabezas de consulta por capa

    • Con la opción num_attention_heads_per_layer de config.json, es posible especificar un número distinto de cabezas de consulta por capa, manteniendo compatible la forma de la caché KV
    • Capas sliding window: 8 cabezas de consulta por cabeza KV
    • Capas full attention: 6 cabezas de consulta por cabeza KV
    • Las cabezas KV se mantienen fijas en 8
  • Intención del diseño

    • En vez de asignar el mismo presupuesto de atención a todas las capas, se concentra la capacidad de atención donde más sirve
    • Las capas full-attention ven todo el contexto y por eso son costosas, así que reciben menos cabezas de consulta
  • La idea de diferenciar la capacidad por capa se remonta al menos a OpenELM de Apple en 2024, y Laguna XS.2 es uno de los ejemplos recientes más notorios entre los modelos abiertos de nivel productivo
  • Como detalle adicional, Laguna también aplica per-head attention-output gating (similar a Qwen3-Next y otros)

4. ZAYA1-8B: Compressed Convolutional Attention (CCA)

  • Modelo de pesos abiertos desarrollado por Zyphra, destacado por haber sido entrenado en GPU de AMD en lugar de GPU de NVIDIA o TPU de Google
  • Estructura

    • En config.json aparecen 80 entradas de capas alternadas, con atención CCA/GQA y feedforward MoE alternándose (visualmente suele representarse como 40 pares de atención+MoE)
    • Usa CCA junto con una disposición GQA 4:1
    • El MoE es muy disperso: solo se activa 1 expert de enrutamiento por token
  • Núcleo de CCA

    • Al igual que MLA, introduce una representación latente comprimida en el bloque de atención
    • La diferencia es que MLA usa la representación latente principalmente para reducir la caché KV, y la atención real se realiza reproyectando al espacio de cabezas de atención
    • CCA comprime Q, K y V, y luego realiza directamente la operación de atención en el espacio latente comprimido; después, el vector de atención resultante se vuelve a proyectar hacia arriba
    • Como resultado, reduce no solo la caché KV, sino también los FLOPs de atención durante prefill y entrenamiento
  • Convolutional Mixing

    • El nombre "Convolutional" viene de que se añade convolutional mixing adicional a las representaciones comprimidas de K y Q
    • La compresión hace más angostos a Q, K y V y reduce cómputo y caché, pero puede debilitar la expresividad de la atención
    • La convolución es una forma barata de añadir contexto local a Q y K comprimidos
    • No se aplica a V: Q y K determinan los scores de atención, mientras que V es el contenido que se promedia con esos scores
    • Además del sequence mixing, también existe un componente de channel mixing
  • Rendimiento

    • CCA fue introducido en un paper separado anterior al informe técnico de ZAYA1-8B, "Compressed Convolutional Attention: Efficient Attention in a Compressed Latent Space" (octubre de 2025)
    • Según los experimentos del paper de CCA, supera a MLA bajo la misma configuración de compresión

5. DeepSeek V4: CSA/HCA, mHC y caché de atención comprimida

  • DeepSeek V4 fue el lanzamiento más comentado y de mayor escala de modelo de este año, y DeepSeek V4-Pro es el MoE más disperso medido por proporción de parámetros activos

  • Este texto se enfoca en dos núcleos nuevos frente a arquitecturas anteriores

    • mHC: una ruta residual más amplia
    • CSA/HCA: compresión y dispersificación de la atención para contexto largo
  • 5.1 Manifold-Constrained Hyper-Connections (mHC)

    • Basado en el paper del equipo de DeepSeek del 31 de diciembre de 2025, "mHC: Manifold-Constrained Hyper-Connections"; en ese momento solo se había probado a escala 27B, pero ahora se aplica de lleno en el flagship
    • El objetivo es modernizar el diseño de las conexiones residuales dentro del bloque Transformer, diferenciándose de cambios concentrados en atención/normalización/MoE
    • Contexto de Hyper-Connections (HC)

      • Basado en Zhu et al. (2024), "Hyper-connections"
      • Reemplaza un único flujo residual por múltiples flujos residuales paralelos y un mapeo aprendido
      • Para que las capas de atención y MoE operen con el hidden size habitual, se agregan Pre Mapping (flujos paralelos → un vector hidden) y Post Mapping (salida de la capa → distribución entre flujos paralelos)
      • Hace más expresiva la ruta residual sin ensanchar la atención ni el MoE en sí
      • En experimentos con OLMo MoE de 7B, los FLOPs por token prácticamente no cambiaron, de 13.36G → 13.38G, y se alcanzó el rendimiento baseline con aproximadamente la mitad de tokens de entrenamiento
    • Cambios de HC → mHC

      • En HC convencional, el Res Mapping es una matriz entrenable, por lo que la amplificación o atenuación de la señal tras varias capas es impredecible
      • mHC proyecta el mapeo residual sobre el manifold de matrices doubly stochastic: todas las entradas son no negativas y cada fila y columna suma 1
      • La mezcla residual actúa como una redistribución estable de información entre flujos
      • Pre Mapping y Post Mapping también se restringen para ser no negativos y acotados, evitando cancelaciones al leer/escribir el estado residual ampliado
      • Esto aporta estabilidad de escalado, algo cada vez más importante en modelos más profundos
    • Costo

      • En experimentos con el modelo de 27B, la implementación optimizada del equipo de DeepSeek (fusion, recomputation, pipeline scheduling) mostró un overhead de 6.7% en tiempo de entrenamiento al usar n=4 flujos residuales
  • 5.2 Atención comprimida con CSA y HCA

    • El objetivo es resolver que, en contextos muy largos, no solo el cálculo de scores de atención sino también la caché KV crece en proporción a la longitud de secuencia
    • DeepSeek V4 usa una combinación híbrida de dos atenciones comprimidas: Compressed Sparse Attention (CSA) y Heavily Compressed Attention (HCA)
    • Diferencia frente a MLA

      • El MLA de DeepSeek V2/V3 comprime la representación KV por token, pero mantiene una entrada latente KV por token
      • CSA/HCA comprimen a lo largo de la dimensión de secuencia, resumiendo varios grupos de tokens en menos entradas KV comprimidas, por lo que la caché en sí se vuelve más corta
      • A cambio de renunciar a parte de la información a nivel token, reducen fuertemente el costo del contexto largo
    • CSA vs HCA

      • CSA: tasa de compresión moderada (m=4) + selección top-k al estilo DeepSeek Sparse Attention (DSA)
      • HCA: compresión fuerte (m'=128, es decir, 128 tokens se comprimen en 1 entrada KV comprimida) + dense attention sobre la caché ya reducida
      • Ambos métodos mantienen una rama de sliding window de 128 tokens para los tokens recientes sin comprimir
      • CSA conserva mejor el detalle pero con selección dispersa; HCA reduce mucho las entradas y permite dense attention, así que son complementarios, por lo que DeepSeek V4 alterna ambos tipos de capa
    • Resultados de eficiencia (contexto de 1M tokens, frente a DeepSeek V3.2)

      • DeepSeek V4-Pro: FLOPs de inferencia por token 27%, tamaño de caché KV 10%
      • DeepSeek V4-Flash: FLOPs 10%, tamaño de caché KV 7%
    • Puntos a considerar en la evaluación

      • Es difícil afirmar que CSA/HCA sea en general "mejor" que MLA; es un diseño más agresivo y más complejo para contexto largo
      • El paper no incluye ablation study
      • Aunque DeepSeek V4-Flash-Base superó a V3.2-Base en varios benchmarks base y mostró resultados sólidos en retrieval de 1M tokens, eso refleja la receta completa, que incluye mejores datos, optimización basada en Muon, mHC, optimizaciones de precisión/almacenamiento y cambios en el sistema de entrenamiento/inferencia

6. Conclusión

  • El patrón común de los nuevos modelos de pesos abiertos de este año es bajar el costo de inferencia en contexto largo sin reducir el número total de parámetros
    • Gemma 4: reduce la caché KV con cross-layer KV sharing y añade capacidad con per-layer embeddings
    • Laguna XS.2: diferencia la capacidad de atención por capa
    • ZAYA1-8B: mueve la atención a un espacio latente comprimido
    • DeepSeek V4: mezcla restringida del flujo residual + atención comprimida para contexto largo
  • El bloque Transformer sigue cambiando, pero con modificaciones dirigidas a objetivos claros, manteniendo la estructura base de una arquitectura GPT decoder-only
  • El rendimiento cualitativo de modelado sigue estando impulsado principalmente por la calidad/cantidad de datos y la receta de entrenamiento
  • Hasta ahora, el Transformer sigue siendo el status quo de la arquitectura SOTA, aunque existen alternativas como los modelos de difusión
  • El bloque Transformer básico podía implementarse en 50~100 líneas de PyTorch, pero con las variantes recientes de atención y otros cambios, la complejidad del código ha aumentado cerca de 10 veces
  • El aumento de complejidad no es necesariamente negativo porque reduce el costo en tiempo de ejecución, pero hace cada vez más difícil tener una comprensión clara de cada componente y de sus interacciones
  • En cuanto al enfoque recomendado para aprender, conviene empezar desde los LLM decoder-style originales (GPT/GPT-2) e ir agregando los nuevos componentes uno por uno

Aún no hay comentarios.

Aún no hay comentarios.