- Las arquitecturas de los LLM en los últimos 7 años han evolucionado desde GPT-2 (2019) hasta DeepSeek-V3 y Llama 4 (2024-2025) sin grandes cambios estructurales, manteniendo una similitud sorprendente
- Modelos recientes como DeepSeek V3/R1 y Llama 4 han incorporado nuevos métodos de optimización como Mixture-of-Experts (MoE), MLA y Sliding Window Attention para mejorar la eficiencia de memoria y el rendimiento en inferencia
- Algunos modelos open source como OLMo 2 y Gemma 3 destacan como buenos casos de diseño para investigación y desarrollo por su divulgación transparente de datos y su disposición particular de las capas de normalización
- Han aparecido modelos de distintos tamaños y estructuras como Qwen3, SmolLM3 y Kimi 2, ampliando las opciones según las ventajas, desventajas y objetivos de uso de las arquitecturas MoE y Dense
- La tendencia común en los LLM recientes combina mayor escala y sofisticación con mejoras estructurales eficientes y adaptación a diversos entornos de hardware
Introducción
- Desde el prototipo de GPT de 2017 hasta GPT-2 (2019), DeepSeek-V3 y Llama 4 (2024-2025), la arquitectura de los LLM sigue siendo similar en lo esencial (la estructura básica del transformer no ha cambiado mucho)
- Los positional embeddings han pasado de enfoques absolutos a métodos como RoPE, y Multi-Head Attention está migrando hacia GQA (grouped-query attention), que ofrece mejor eficiencia de memoria y cómputo, pero la estructura fundamental se mantiene
- Comparar rendimiento es difícil porque depende del dataset y del método de entrenamiento, por lo que no es fácil hacer una comparación arquitectónica directa
- El texto se enfoca en analizar en detalle los cambios estructurales en arquitecturas de los LLM abiertos más recientes
1. DeepSeek V3/R1
- DeepSeek R1 (enero de 2025) fue construido sobre la arquitectura de DeepSeek V3 (diciembre de 2024) y llamó la atención por su avanzada capacidad de razonamiento y su gran escala de parámetros (671 mil millones)
- Arquitectura clave: Multi-Head Latent Attention (MLA), Mixture-of-Experts (MoE)
- MLA: comprime Key/Value a baja dimensión para reducir la memoria del KV cache y ofrece mejor rendimiento que GQA
- MoE: distribuye el módulo FeedForward entre varios experts, con una estructura sparse en la que solo algunos experts se activan por token
- DeepSeek V3: 256 experts, 671B de parámetros totales, y durante la inferencia usa solo 9 experts (37B de parámetros)
- Un shared expert siempre activo mejora la eficiencia de aprendizaje de patrones generales
- Características: aunque es grande (671B), logra buena eficiencia de inferencia; MLA supera a GQA en rendimiento, y MoE permite una gran capacidad de entrenamiento
2. OLMo 2
- Modelo completamente abierto del Allen Institute for AI
- Su fortaleza no está tanto en el rendimiento como en su diseño transparente y código abierto
- Puntos arquitectónicos: posición de RMSNorm (aplicación Post-Norm), QK-Norm
- Los GPT tradicionales usan Pre-Norm, mientras que OLMo 2 aplica normalización después de Attention/FeedForward (una variante Post-Norm)
- QK-Norm: agrega RMSNorm extra a query/key en Attention para mejorar la estabilidad del entrenamiento
- Mantiene la estructura tradicional de Multi-Head Attention (MHA)
- Es similar a Llama 3 y otros, pero se diferencia en su estrategia de normalización
3. Gemma 3
- El principal LLM abierto de Google, con la característica de apostar por un vocabulary grande para soporte multilingüe y por modelos de tamaño 27B
- Sliding Window Attention (ventana local) reduce de forma importante la memoria del KV cache
- Gemma 2: proporción Global/Local 1:1, ventana de 4k; Gemma 3: proporción 5:1, con ventana reducida a 1024
- Casi no afecta el rendimiento (perplexity)
- Normalization: aplica tanto Pre-Norm como Post-Norm RMSNorm alrededor del módulo GQA
- Gemma 3n: orientado a dispositivos pequeños, se aligera con Per-Layer Embedding (solo los parámetros por capa residen en GPU) y MatFormer (uso dividido de submodelos)
4. Mistral Small 3.1
- Mistral Small 3.1 24B es más rápido que Gemma 3 27B y está entre los mejores en benchmarks
- Usa un tokenizer personalizado y reduce el KV cache y la cantidad de capas para minimizar la latencia de inferencia
- Deja de lado sliding window attention y en su lugar usa GQA optimizado + FlashAttention, enfocándose en la velocidad de inferencia y la eficiencia del código
5. Llama 4
- Adopta activamente la arquitectura MoE, logrando tanto eficiencia de inferencia como capacidad del modelo, con una estructura similar a DeepSeek-V3
- Usa GQA, pero con diferencias en la cantidad de experts MoE y en el hidden size
- DeepSeek-V3: 9 experts (2,048), Llama 4: 2 experts (8,192), 17B de parámetros activos (frente a 37B en DeepSeek)
- Emplea un diseño clásico de MoE al insertar bloques MoE y Dense de forma alternada
- Confirma la popularización de MoE en los LLM recientes
6. Qwen3
- Ofrece versiones Dense de varios tamaños (0.6B~32B) y versiones MoE (30B-A3B, 235B-A22B)
- La versión pequeña (0.6B) destaca por su eficiencia de entrenamiento e inferencia y su token throughput. Logra un rendimiento sobresaliente entre los LLM ultraligeros, además de excelente eficiencia de memoria y facilidad de entrenamiento
- Dense: más capas, menos memoria, pero menor velocidad (frente a Llama 3 1B)
- MoE: Qwen3 235B-A22B tiene 22B de parámetros activos y no usa shared expert (a diferencia del anterior Qwen2.5-MoE, que sí lo incluía), lo que mejora la eficiencia
- Qwen3 235B-A22B y DeepSeek-V3 son muy similares en su estructura general
- Al ofrecer tanto Dense como MoE, responde a diversos objetivos de uso
7. SmolLM3
- Modelo pequeño de 3B parámetros que compite con Qwen3 1.7/4B, Llama 3 3B y Gemma 3 4B
- La arquitectura es estándar, pero aplica NoPE (No Positional Embedding)
- Usa solo causal mask sin positional encoding como RoPE
- Mejora la generalización de longitud (Length Generalization) en secuencias largas
- Es una estructura experimental aplicada solo en algunas capas
8. Kimi 2
- Gran modelo abierto de 1 billón de parámetros, el más grande entre los modelos abiertos
- Basado en la estructura de DeepSeek-V3, amplía la cantidad de capas MoE y ajusta el número de heads en MLA
- Usa el optimizador Muon en lugar de AdamW para hacer más eficiente el entrenamiento y lograr mejor loss decay
- Tiene más experts MoE que DeepSeek-V3 y menos heads MLA
- A partir de la experiencia de Kimi 1.5, Kimi 2 logró publicar open weights y alcanzar rendimiento de primer nivel
Conclusiones y tendencias
- Los LLM recientes mantienen su estructura fundamental, pero se caracterizan por mayor escala arquitectónica y la adopción de MoE y otras estructuras de eficiencia
- En los modelos abiertos, la publicación transparente de datos, diseño y código incrementa su valor para investigación y uso industrial
- Dense y MoE, MLA·GQA·Sliding Window Attention y diversas estrategias de normalización muestran que cada modelo tiene un enfoque de optimización distinto
- Es una etapa en la que las opciones arquitectónicas se han diversificado según el entorno de hardware, el objetivo de uso y la eficiencia de entrenamiento e inferencia
2 comentarios
Parece que
qwenfunciona bien con el coreano.Opiniones de Hacker News
Enlace al resultado de Claude
Pero no estoy muy seguro de que este resultado sea realmente útil