Galería de arquitecturas LLM

(sebastianraschka.com)

50 puntos por GN⁺ 2026-03-16 | 2 comentarios | Compartir por WhatsApp

Una galería en línea que organiza de un vistazo los diagramas estructurales y las especificaciones clave de los modelos de lenguaje grandes (LLM) más recientes, incluyendo los principales modelos publicados entre 2024 y 2026
Cada modelo se presenta en formato de tabla con un resumen de escala de parámetros, tipo de decoder, método de atención y puntos clave de diseño
El material fue extraído de los artículos comparativos de Sebastian Raschka: ‘The Big LLM Architecture Comparison’ y ‘A Dream of Spring for Open-Weight LLMs’
Los usuarios pueden hacer clic en el nombre del modelo para ir a su explicación detallada, o hacer clic en la imagen para ampliar el diagrama de alta resolución (182 megapíxeles)
Funciona como una base de datos de referencia de arquitecturas para investigadores y desarrolladores de LLM open-weight, permitiendo ver en un solo lugar la evolución reciente de las arquitecturas MoE, Hybrid y Dense

Descripción general

Esta página es una galería que recopila diagramas de arquitecturas LLM y hojas técnicas, organizada a partir de los gráficos extraídos de dos artículos comparativos principales de Raschka
- Fuente original: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
Cada entrada de modelo incluye nombre del modelo, cantidad de parámetros, fecha de publicación, tipo de decoder, método de atención, características clave de diseño y enlaces a conceptos relacionados
Si se detecta información incorrecta o errores de enlaces, se puede reportar mediante el rastreador de issues de GitHub
Debido a la alta demanda, también se ofrece una versión en póster (PNG de 56MB) con resolución de 14570×12490 a través de Zazzle

Ejemplos de modelos principales

Llama 3 8B

Modelo basado en decoder Dense de 8 mil millones de parámetros, usado como stack de referencia para comparar las elecciones de normalización y atención de OLMo 2
Usa atención GQA + RoPE y mantiene una estructura Pre-norm
Publicado el 18 de abril de 2024

OLMo 2 7B

Modelo Dense de 7 mil millones de parámetros, con atención MHA + QK-Norm
Mejora la estabilidad del entrenamiento con una estructura Inside-residual post-norm
Publicado el 25 de noviembre de 2024

DeepSeek V3

Modelo Sparse MoE con 37 mil millones de parámetros activos de un total de 671 mil millones
Combina atención MLA con una estructura de shared expert
Una plantilla representativa que impulsó el auge de los grandes modelos MoE abiertos

DeepSeek R1

Versión especializada en reasoning basada en DeepSeek V3, manteniendo la misma arquitectura
Publicado el 20 de enero de 2025, con estructura Sparse MoE basada en MLA

Gemma 3 27B

Modelo Dense de 27 mil millones de parámetros, con GQA + QK-Norm y atención sliding window/global en proporción 5:1
Se caracteriza por la expansión del vocabulario multilingüe y el refuerzo de la atención local
Publicado el 11 de marzo de 2025

Expansión de arquitecturas MoE e Hybrid

Llama 4 Maverick

Modelo Sparse MoE de Meta, basado en la arquitectura de DeepSeek V3 pero con atención GQA tradicional
17 mil millones activos de un total de 400 mil millones de parámetros
Alterna bloques Dense y MoE, reduciendo la cantidad de expertos y aumentando la escala

Qwen3 235B-A22B

Estructura Sparse MoE similar a la de DeepSeek V3, pero sin shared expert
22 mil millones activos de un total de 235 mil millones de parámetros, con GQA + QK-Norm
Publicado el 28 de abril de 2025

Kimi K2

Modelo Sparse MoE a escala de 1 billón de parámetros, una extensión de DeepSeek V3
Usa atención MLA, aumenta la cantidad de expertos y reduce el número de cabezas MLA
Publicado el 10 de julio de 2025

GLM-4.5 355B

Modelo Sparse MoE orientado a agentes, que adopta la estructura Dense-prefix MoE de DeepSeek
32 mil millones activos de un total de 355 mil millones de parámetros, con GQA + QK-Norm
Publicado el 28 de julio de 2025

GPT-OSS 20B / 120B

Serie MoE open-weight de OpenAI, con atención cruzada sliding window/global basada en GQA
El modelo 20B tiene una estructura baja y ancha, y el modelo 120B amplía ese mismo diseño
Publicado el 4 de agosto de 2025

Estructuras Hybrid y de próxima generación

Qwen3 Next 80B-A3B

Modelo Sparse Hybrid que usa atención híbrida Gated DeltaNet + Gated Attention
3 mil millones activos de un total de 80 mil millones de parámetros, con soporte para contexto de 262k
Publicado el 9 de septiembre de 2025

Kimi Linear 48B-A3B

Estructura híbrida que combina Linear Attention + MLA
Mejora la eficiencia en contextos largos con NoPE y gating por canal
Publicado el 30 de octubre de 2025

Nemotron 3 Nano / Super

Modelo Transformer-State-Space Hybrid de NVIDIA
Nano (30B) usa Mamba-2 + MoE, y Super (120B) agrega LatentMoE + MTP
Publicados el 4 de diciembre de 2025 y el 11 de marzo de 2026, respectivamente

Ling 2.5 1T

Modelo Sparse Hybrid de 1 billón de parámetros, con combinación de Lightning Attention + MLA
63 mil millones de parámetros activos, con una configuración de atención lineal/MLA en proporción 7:1
Publicado el 15 de febrero de 2026

Modelos open-weight más recientes

Qwen3.5 397B

Modelo principal que hereda la atención híbrida de Qwen3 Next
17 mil millones activos de un total de 397 mil millones de parámetros, con 512 expertos
Publicado el 16 de febrero de 2026

Sarvam 30B / 105B

Modelo Sparse MoE enfocado en el soporte para idiomas de India
El 30B usa GQA + QK-Norm y el 105B usa MLA + NoPE + RoPE
Publicado el 3 de marzo de 2026

Artículos de referencia

The Big LLM Architecture Comparison: explica las diferencias de diseño entre arquitecturas de decoder Dense, MoE, MLA e Hybrid
A Dream of Spring for Open-Weight LLMs: análisis adicional de modelos open-weight como MiniMax, Qwen, Ling y Sarvam, publicados a inicios de 2026

2 comentarios

orange 2026-03-17

Está divertido.

GN⁺ 2026-03-16

Opiniones de Hacker News

Me pareció interesante ver que, después de varios años de experimentación, los modelos de pesos abiertos finalmente convergieron hacia formas similares.
Hubo intentos diversos como el enrutamiento MoE, los modelos de espacio de estados y la atención lineal, pero ahora se han asentado en una estructura de dense decoder-only transformer combinada con RMSNorm, rotary position embedding, SwiGLU y grouped-query attention.
Ahora el punto clave de diferenciación se ha desplazado hacia la receta de entrenamiento y el pipeline de datos.
La verdadera innovación de DeepSeek-R1 no fue la arquitectura, sino el aprendizaje por refuerzo sobre cadenas de razonamiento, y Llama 3 también mantiene casi la misma arquitectura, pero con datos y procesos de posprocesamiento completamente nuevos.
Esto se parece al cambio en el diseño de chips, donde los procesos de fabricación y la microarquitectura se volvieron más importantes que la ISA.
Los textos de Sebastian siempre valen la pena.
Recomiendo muchísimo su libro Build an LLM From Scratch. Fue gracias a ese libro que por fin logré entender bien el mecanismo de Transformer.
Al ver la LLM Architecture Gallery, las diferencias entre modelos resultan interesantes, pero en los últimos 7 años, desde GPT-2, casi no ha habido innovaciones fundamentales.
Incluso los modelos actuales de pesos abiertos, vistos desde lejos, siguen siendo una estructura repetitiva de capas de attention + feed-forward muy parecida a GPT-2.
Los avances espectaculares recientes se deben al escalado y a nuevas técnicas de entrenamiento (RLVR, etc.), y esto parece otro ejemplo más de la Bitter Lesson.
Es una visualización realmente genial. Me recuerda a Neural Network Zoo, que había visto hace tiempo.
Igual que ese proyecto, que permitía ver de un vistazo distintas arquitecturas de redes neuronales, este también muestra muy bien la diversidad de arquitecturas.
Es un trabajo excelente.
Me pregunto si existe algún criterio de ordenamiento. Sería aún mejor si pudiera verse el flujo evolutivo o la genealogía de innovaciones en forma de árbol familiar.
Además, si los cambios en el tamaño de los modelos se visualizaran a escala, creo que se podría percibir de forma más intuitiva la velocidad del progreso.
- Como material para ver la evolución de la familia DeepSeek, se puede consultar este artículo.
Está buenísimo. Gracias por compartirlo.
Una versión con zoom se puede ver aquí.
Como estadístico, siempre quise una forma de comprensión modular que conectara la idea de que “las redes neuronales aproximan funciones” con la ingeniería real de modelos de machine learning.
Siento que este material ayuda a cerrar esa brecha.
Me pregunto con qué herramienta hicieron este diagrama.
Es una colección interesante.
En la práctica, si comparas patrones de prompts, las diferencias de arquitectura aparecen de maneras inesperadas.
Por ejemplo, una ventana de contexto larga no solo permite manejar más texto, sino que también lleva a diseñar de otra forma la estructura misma de la entrada.
Me pregunto cuál es el modelo estructuralmente más simple que siga siendo competitivo.
- La competitividad viene más de la escala, los datos y los datos de ajuste fino que de la arquitectura.
  En los últimos años casi no ha habido innovación estructural, y la mayoría de los cambios han sido para mejorar la eficiencia del entrenamiento.
- Si se toma una definición flexible de “competitivo”, incluso se podría implementar directamente una Markov chain.
  Los modelos Transformer son el resultado de una evolución gradual construida sobre la acumulación de muchos trabajos previos.
Cuando hice clic, esperaba que fuera sobre un LLM diseñando rascacielos, presas o puentes.
Hasta preparé palomitas, así que me decepcionó un poco.

Galería de arquitecturas LLM

Descripción general

Ejemplos de modelos principales

Llama 3 8B

OLMo 2 7B

DeepSeek V3

DeepSeek R1

Gemma 3 27B

Expansión de arquitecturas MoE e Hybrid

Llama 4 Maverick

Qwen3 235B-A22B

Kimi K2

GLM-4.5 355B

GPT-OSS 20B / 120B

Estructuras Hybrid y de próxima generación

Qwen3 Next 80B-A3B

Kimi Linear 48B-A3B

Nemotron 3 Nano / Super

Ling 2.5 1T

Modelos open-weight más recientes

Qwen3.5 397B

Sarvam 30B / 105B

Artículos de referencia

Lecturas relacionadas

2 comentarios

Opiniones de Hacker News