Comparación de las arquitecturas de los grandes LLM

(magazine.sebastianraschka.com)

26 puntos por GN⁺ 2025-07-21 | 2 comentarios | Compartir por WhatsApp

Las arquitecturas de los LLM en los últimos 7 años han evolucionado desde GPT-2 (2019) hasta DeepSeek-V3 y Llama 4 (2024-2025) sin grandes cambios estructurales, manteniendo una similitud sorprendente
Modelos recientes como DeepSeek V3/R1 y Llama 4 han incorporado nuevos métodos de optimización como Mixture-of-Experts (MoE), MLA y Sliding Window Attention para mejorar la eficiencia de memoria y el rendimiento en inferencia
Algunos modelos open source como OLMo 2 y Gemma 3 destacan como buenos casos de diseño para investigación y desarrollo por su divulgación transparente de datos y su disposición particular de las capas de normalización
Han aparecido modelos de distintos tamaños y estructuras como Qwen3, SmolLM3 y Kimi 2, ampliando las opciones según las ventajas, desventajas y objetivos de uso de las arquitecturas MoE y Dense
La tendencia común en los LLM recientes combina mayor escala y sofisticación con mejoras estructurales eficientes y adaptación a diversos entornos de hardware

Introducción

Desde el prototipo de GPT de 2017 hasta GPT-2 (2019), DeepSeek-V3 y Llama 4 (2024-2025), la arquitectura de los LLM sigue siendo similar en lo esencial (la estructura básica del transformer no ha cambiado mucho)
Los positional embeddings han pasado de enfoques absolutos a métodos como RoPE, y Multi-Head Attention está migrando hacia GQA (grouped-query attention), que ofrece mejor eficiencia de memoria y cómputo, pero la estructura fundamental se mantiene
Comparar rendimiento es difícil porque depende del dataset y del método de entrenamiento, por lo que no es fácil hacer una comparación arquitectónica directa
El texto se enfoca en analizar en detalle los cambios estructurales en arquitecturas de los LLM abiertos más recientes

1. DeepSeek V3/R1

DeepSeek R1 (enero de 2025) fue construido sobre la arquitectura de DeepSeek V3 (diciembre de 2024) y llamó la atención por su avanzada capacidad de razonamiento y su gran escala de parámetros (671 mil millones)
Arquitectura clave: Multi-Head Latent Attention (MLA), Mixture-of-Experts (MoE)
MLA: comprime Key/Value a baja dimensión para reducir la memoria del KV cache y ofrece mejor rendimiento que GQA
MoE: distribuye el módulo FeedForward entre varios experts, con una estructura sparse en la que solo algunos experts se activan por token
- DeepSeek V3: 256 experts, 671B de parámetros totales, y durante la inferencia usa solo 9 experts (37B de parámetros)
- Un shared expert siempre activo mejora la eficiencia de aprendizaje de patrones generales
Características: aunque es grande (671B), logra buena eficiencia de inferencia; MLA supera a GQA en rendimiento, y MoE permite una gran capacidad de entrenamiento

2. OLMo 2

Modelo completamente abierto del Allen Institute for AI
Su fortaleza no está tanto en el rendimiento como en su diseño transparente y código abierto
Puntos arquitectónicos: posición de RMSNorm (aplicación Post-Norm), QK-Norm
- Los GPT tradicionales usan Pre-Norm, mientras que OLMo 2 aplica normalización después de Attention/FeedForward (una variante Post-Norm)
- QK-Norm: agrega RMSNorm extra a query/key en Attention para mejorar la estabilidad del entrenamiento
Mantiene la estructura tradicional de Multi-Head Attention (MHA)
Es similar a Llama 3 y otros, pero se diferencia en su estrategia de normalización

3. Gemma 3

El principal LLM abierto de Google, con la característica de apostar por un vocabulary grande para soporte multilingüe y por modelos de tamaño 27B
Sliding Window Attention (ventana local) reduce de forma importante la memoria del KV cache
- Gemma 2: proporción Global/Local 1:1, ventana de 4k; Gemma 3: proporción 5:1, con ventana reducida a 1024
- Casi no afecta el rendimiento (perplexity)
Normalization: aplica tanto Pre-Norm como Post-Norm RMSNorm alrededor del módulo GQA
Gemma 3n: orientado a dispositivos pequeños, se aligera con Per-Layer Embedding (solo los parámetros por capa residen en GPU) y MatFormer (uso dividido de submodelos)

4. Mistral Small 3.1

Mistral Small 3.1 24B es más rápido que Gemma 3 27B y está entre los mejores en benchmarks
Usa un tokenizer personalizado y reduce el KV cache y la cantidad de capas para minimizar la latencia de inferencia
Deja de lado sliding window attention y en su lugar usa GQA optimizado + FlashAttention, enfocándose en la velocidad de inferencia y la eficiencia del código

5. Llama 4

Adopta activamente la arquitectura MoE, logrando tanto eficiencia de inferencia como capacidad del modelo, con una estructura similar a DeepSeek-V3
Usa GQA, pero con diferencias en la cantidad de experts MoE y en el hidden size
- DeepSeek-V3: 9 experts (2,048), Llama 4: 2 experts (8,192), 17B de parámetros activos (frente a 37B en DeepSeek)
Emplea un diseño clásico de MoE al insertar bloques MoE y Dense de forma alternada
Confirma la popularización de MoE en los LLM recientes

6. Qwen3

Ofrece versiones Dense de varios tamaños (0.6B~32B) y versiones MoE (30B-A3B, 235B-A22B)
La versión pequeña (0.6B) destaca por su eficiencia de entrenamiento e inferencia y su token throughput. Logra un rendimiento sobresaliente entre los LLM ultraligeros, además de excelente eficiencia de memoria y facilidad de entrenamiento
Dense: más capas, menos memoria, pero menor velocidad (frente a Llama 3 1B)
MoE: Qwen3 235B-A22B tiene 22B de parámetros activos y no usa shared expert (a diferencia del anterior Qwen2.5-MoE, que sí lo incluía), lo que mejora la eficiencia
Qwen3 235B-A22B y DeepSeek-V3 son muy similares en su estructura general
Al ofrecer tanto Dense como MoE, responde a diversos objetivos de uso

7. SmolLM3

Modelo pequeño de 3B parámetros que compite con Qwen3 1.7/4B, Llama 3 3B y Gemma 3 4B
La arquitectura es estándar, pero aplica NoPE (No Positional Embedding)
- Usa solo causal mask sin positional encoding como RoPE
- Mejora la generalización de longitud (Length Generalization) en secuencias largas
- Es una estructura experimental aplicada solo en algunas capas

8. Kimi 2

Gran modelo abierto de 1 billón de parámetros, el más grande entre los modelos abiertos
Basado en la estructura de DeepSeek-V3, amplía la cantidad de capas MoE y ajusta el número de heads en MLA
Usa el optimizador Muon en lugar de AdamW para hacer más eficiente el entrenamiento y lograr mejor loss decay
Tiene más experts MoE que DeepSeek-V3 y menos heads MLA
A partir de la experiencia de Kimi 1.5, Kimi 2 logró publicar open weights y alcanzar rendimiento de primer nivel

Conclusiones y tendencias

Los LLM recientes mantienen su estructura fundamental, pero se caracterizan por mayor escala arquitectónica y la adopción de MoE y otras estructuras de eficiencia
En los modelos abiertos, la publicación transparente de datos, diseño y código incrementa su valor para investigación y uso industrial
Dense y MoE, MLA·GQA·Sliding Window Attention y diversas estrategias de normalización muestran que cada modelo tiene un enfoque de optimización distinto
Es una etapa en la que las opciones arquitectónicas se han diversificado según el entorno de hardware, el objetivo de uso y la eficiencia de entrenamiento e inferencia

2 comentarios

tensun 2025-07-22

Parece que qwen funciona bien con el coreano.

GN⁺ 2025-07-21

Opiniones de Hacker News

Este artículo tenía el nivel de abstracción perfecto y un nivel de detalle muy bueno para aprender sobre arquitecturas de LLM, así que pude absorber mucha más información que leyendo los papers originales
Para quienes están entre principiante y experto, los diagramas de este artículo resultan muy impactantes; ver los modelos más recientes organizados de un vistazo es realmente útil
Como material relacionado, también vale la pena revisar un artículo que explica cómo DeepSeek mejoró la arquitectura Transformer y algunas secciones de un artículo de análisis sobre la superinteligencia de Meta
Para quienes, como yo, no habían podido seguir las tendencias más recientes, este tipo de resumen es de verdad un gran catch-up
Ojalá después salga una segunda parte que incluya incluso rumores sobre modelos frontier de código cerrado como o5, o3 Pro, o4 o 4.5, Gemini 2.5 Pro, Grok 4 y Claude Opus 4
Gracias por organizar con tanto detalle las diferencias entre distintas arquitecturas de LLM; así resulta fácil de entender y además muy educativo
Sinceramente, comparado con la época de GPT-2 (2019), la velocidad del avance actual es casi imposible de creer. Hoy ya es difícil incluso comparar bien el rendimiento de los LLM, porque cada dos semanas aparece un modelo nuevo que actualiza los benchmarks. Me dio gusto ver que se mencionara a DeepSeek, porque las innovaciones arquitectónicas introducidas en V3 mejoraron muchísimo la eficiencia computacional, y ese fue el punto decisivo que eliminó la desventaja frente a otros modelos de ese momento
Aunque muchas arquitecturas nuevas han logrado grandes innovaciones en precisión o velocidad, el problema fundamental de garantizar la generación de información correcta sigue sin resolverse. Métodos como Retrieval Augmented Generation (RAG) o los agentes ayudan a mejorar esto, pero también me pregunto si las arquitecturas del futuro terminarán reemplazando esos enfoques
- En el fondo, los Transformers se entrenan con el objetivo de predecir texto, y ese enfoque tiene límites para incorporar razonamiento lógico. Si de verdad queremos seguir reduciendo las alucinaciones, creo que se necesita un objetivo de entrenamiento completamente distinto
- El modelo no puede distinguir cuándo está bien generalizar y cuándo necesita más información. Por ejemplo, no distingue fácilmente por qué existe un método pero no otra función parecida. Cuando era niño, una vez llamé a mi madre una gran cooker, porque no sabía que a las máquinas y a las personas se les asignan palabras distintas. Siento que ese tipo de generalización entre palabras parecidas también se aplica a los modelos
- Arquitecturas recientes como DeepSeek-V2 y Llama 3.1 muestran que solo con mejoras de diseño ya se puede aumentar bastante la factualidad. En especial, esto se debe a mecanismos de attention y a objetivos de entrenamiento especializados en suprimir alucinaciones
- RAG (respuestas basadas en búsqueda) es estructuralmente simple y fácil de implementar, pero siempre me he preguntado por qué todavía no está integrado en los LLM base. El hecho de que no haya podido integrarse directamente dentro del modelo parece demostrar las limitaciones fundamentales de RAG y sus variantes. Si de verdad fuera un método tan efectivo, creo que se habría incorporado como función básica de la arquitectura y no como un añadido externo
Le pedí a Claude que leyera el texto original e intentara proponer una nueva arquitectura
Enlace al resultado de Claude
Pero no estoy muy seguro de que este resultado sea realmente útil

Comparación de las arquitecturas de los grandes LLM

Introducción

1. DeepSeek V3/R1

2. OLMo 2

3. Gemma 3

4. Mistral Small 3.1

5. Llama 4

6. Qwen3

7. SmolLM3

8. Kimi 2

Conclusiones y tendencias

Lecturas relacionadas

2 comentarios

Opiniones de Hacker News