50 puntos por GN⁺ 2026-03-16 | 2 comentarios | Compartir por WhatsApp
  • Una galería en línea que organiza de un vistazo los diagramas estructurales y las especificaciones clave de los modelos de lenguaje grandes (LLM) más recientes, incluyendo los principales modelos publicados entre 2024 y 2026
  • Cada modelo se presenta en formato de tabla con un resumen de escala de parámetros, tipo de decoder, método de atención y puntos clave de diseño
  • El material fue extraído de los artículos comparativos de Sebastian Raschka: ‘The Big LLM Architecture Comparison’ y ‘A Dream of Spring for Open-Weight LLMs’
  • Los usuarios pueden hacer clic en el nombre del modelo para ir a su explicación detallada, o hacer clic en la imagen para ampliar el diagrama de alta resolución (182 megapíxeles)
  • Funciona como una base de datos de referencia de arquitecturas para investigadores y desarrolladores de LLM open-weight, permitiendo ver en un solo lugar la evolución reciente de las arquitecturas MoE, Hybrid y Dense

Descripción general

  • Esta página es una galería que recopila diagramas de arquitecturas LLM y hojas técnicas, organizada a partir de los gráficos extraídos de dos artículos comparativos principales de Raschka
    • Fuente original: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
  • Cada entrada de modelo incluye nombre del modelo, cantidad de parámetros, fecha de publicación, tipo de decoder, método de atención, características clave de diseño y enlaces a conceptos relacionados
  • Si se detecta información incorrecta o errores de enlaces, se puede reportar mediante el rastreador de issues de GitHub
  • Debido a la alta demanda, también se ofrece una versión en póster (PNG de 56MB) con resolución de 14570×12490 a través de Zazzle

Ejemplos de modelos principales

Llama 3 8B

  • Modelo basado en decoder Dense de 8 mil millones de parámetros, usado como stack de referencia para comparar las elecciones de normalización y atención de OLMo 2
  • Usa atención GQA + RoPE y mantiene una estructura Pre-norm
  • Publicado el 18 de abril de 2024

OLMo 2 7B

  • Modelo Dense de 7 mil millones de parámetros, con atención MHA + QK-Norm
  • Mejora la estabilidad del entrenamiento con una estructura Inside-residual post-norm
  • Publicado el 25 de noviembre de 2024

DeepSeek V3

  • Modelo Sparse MoE con 37 mil millones de parámetros activos de un total de 671 mil millones
  • Combina atención MLA con una estructura de shared expert
  • Una plantilla representativa que impulsó el auge de los grandes modelos MoE abiertos

DeepSeek R1

  • Versión especializada en reasoning basada en DeepSeek V3, manteniendo la misma arquitectura
  • Publicado el 20 de enero de 2025, con estructura Sparse MoE basada en MLA

Gemma 3 27B

  • Modelo Dense de 27 mil millones de parámetros, con GQA + QK-Norm y atención sliding window/global en proporción 5:1
  • Se caracteriza por la expansión del vocabulario multilingüe y el refuerzo de la atención local
  • Publicado el 11 de marzo de 2025

Expansión de arquitecturas MoE e Hybrid

Llama 4 Maverick

  • Modelo Sparse MoE de Meta, basado en la arquitectura de DeepSeek V3 pero con atención GQA tradicional
  • 17 mil millones activos de un total de 400 mil millones de parámetros
  • Alterna bloques Dense y MoE, reduciendo la cantidad de expertos y aumentando la escala

Qwen3 235B-A22B

  • Estructura Sparse MoE similar a la de DeepSeek V3, pero sin shared expert
  • 22 mil millones activos de un total de 235 mil millones de parámetros, con GQA + QK-Norm
  • Publicado el 28 de abril de 2025

Kimi K2

  • Modelo Sparse MoE a escala de 1 billón de parámetros, una extensión de DeepSeek V3
  • Usa atención MLA, aumenta la cantidad de expertos y reduce el número de cabezas MLA
  • Publicado el 10 de julio de 2025

GLM-4.5 355B

  • Modelo Sparse MoE orientado a agentes, que adopta la estructura Dense-prefix MoE de DeepSeek
  • 32 mil millones activos de un total de 355 mil millones de parámetros, con GQA + QK-Norm
  • Publicado el 28 de julio de 2025

GPT-OSS 20B / 120B

  • Serie MoE open-weight de OpenAI, con atención cruzada sliding window/global basada en GQA
  • El modelo 20B tiene una estructura baja y ancha, y el modelo 120B amplía ese mismo diseño
  • Publicado el 4 de agosto de 2025

Estructuras Hybrid y de próxima generación

Qwen3 Next 80B-A3B

  • Modelo Sparse Hybrid que usa atención híbrida Gated DeltaNet + Gated Attention
  • 3 mil millones activos de un total de 80 mil millones de parámetros, con soporte para contexto de 262k
  • Publicado el 9 de septiembre de 2025

Kimi Linear 48B-A3B

  • Estructura híbrida que combina Linear Attention + MLA
  • Mejora la eficiencia en contextos largos con NoPE y gating por canal
  • Publicado el 30 de octubre de 2025

Nemotron 3 Nano / Super

  • Modelo Transformer-State-Space Hybrid de NVIDIA
  • Nano (30B) usa Mamba-2 + MoE, y Super (120B) agrega LatentMoE + MTP
  • Publicados el 4 de diciembre de 2025 y el 11 de marzo de 2026, respectivamente

Ling 2.5 1T

  • Modelo Sparse Hybrid de 1 billón de parámetros, con combinación de Lightning Attention + MLA
  • 63 mil millones de parámetros activos, con una configuración de atención lineal/MLA en proporción 7:1
  • Publicado el 15 de febrero de 2026

Modelos open-weight más recientes

Qwen3.5 397B

  • Modelo principal que hereda la atención híbrida de Qwen3 Next
  • 17 mil millones activos de un total de 397 mil millones de parámetros, con 512 expertos
  • Publicado el 16 de febrero de 2026

Sarvam 30B / 105B

  • Modelo Sparse MoE enfocado en el soporte para idiomas de India
  • El 30B usa GQA + QK-Norm y el 105B usa MLA + NoPE + RoPE
  • Publicado el 3 de marzo de 2026

Artículos de referencia

  • The Big LLM Architecture Comparison: explica las diferencias de diseño entre arquitecturas de decoder Dense, MoE, MLA e Hybrid
  • A Dream of Spring for Open-Weight LLMs: análisis adicional de modelos open-weight como MiniMax, Qwen, Ling y Sarvam, publicados a inicios de 2026

2 comentarios

 
orange 2026-03-17

Está divertido.

 
GN⁺ 2026-03-16
Opiniones de Hacker News
  • Me pareció interesante ver que, después de varios años de experimentación, los modelos de pesos abiertos finalmente convergieron hacia formas similares.
    Hubo intentos diversos como el enrutamiento MoE, los modelos de espacio de estados y la atención lineal, pero ahora se han asentado en una estructura de dense decoder-only transformer combinada con RMSNorm, rotary position embedding, SwiGLU y grouped-query attention.
    Ahora el punto clave de diferenciación se ha desplazado hacia la receta de entrenamiento y el pipeline de datos.
    La verdadera innovación de DeepSeek-R1 no fue la arquitectura, sino el aprendizaje por refuerzo sobre cadenas de razonamiento, y Llama 3 también mantiene casi la misma arquitectura, pero con datos y procesos de posprocesamiento completamente nuevos.
    Esto se parece al cambio en el diseño de chips, donde los procesos de fabricación y la microarquitectura se volvieron más importantes que la ISA.

  • Los textos de Sebastian siempre valen la pena.
    Recomiendo muchísimo su libro Build an LLM From Scratch. Fue gracias a ese libro que por fin logré entender bien el mecanismo de Transformer.
    Al ver la LLM Architecture Gallery, las diferencias entre modelos resultan interesantes, pero en los últimos 7 años, desde GPT-2, casi no ha habido innovaciones fundamentales.
    Incluso los modelos actuales de pesos abiertos, vistos desde lejos, siguen siendo una estructura repetitiva de capas de attention + feed-forward muy parecida a GPT-2.
    Los avances espectaculares recientes se deben al escalado y a nuevas técnicas de entrenamiento (RLVR, etc.), y esto parece otro ejemplo más de la Bitter Lesson.

  • Es una visualización realmente genial. Me recuerda a Neural Network Zoo, que había visto hace tiempo.
    Igual que ese proyecto, que permitía ver de un vistazo distintas arquitecturas de redes neuronales, este también muestra muy bien la diversidad de arquitecturas.

  • Es un trabajo excelente.
    Me pregunto si existe algún criterio de ordenamiento. Sería aún mejor si pudiera verse el flujo evolutivo o la genealogía de innovaciones en forma de árbol familiar.
    Además, si los cambios en el tamaño de los modelos se visualizaran a escala, creo que se podría percibir de forma más intuitiva la velocidad del progreso.

    • Como material para ver la evolución de la familia DeepSeek, se puede consultar este artículo.
  • Está buenísimo. Gracias por compartirlo.
    Una versión con zoom se puede ver aquí.

  • Como estadístico, siempre quise una forma de comprensión modular que conectara la idea de que “las redes neuronales aproximan funciones” con la ingeniería real de modelos de machine learning.
    Siento que este material ayuda a cerrar esa brecha.

  • Me pregunto con qué herramienta hicieron este diagrama.

  • Es una colección interesante.
    En la práctica, si comparas patrones de prompts, las diferencias de arquitectura aparecen de maneras inesperadas.
    Por ejemplo, una ventana de contexto larga no solo permite manejar más texto, sino que también lleva a diseñar de otra forma la estructura misma de la entrada.

  • Me pregunto cuál es el modelo estructuralmente más simple que siga siendo competitivo.

    • La competitividad viene más de la escala, los datos y los datos de ajuste fino que de la arquitectura.
      En los últimos años casi no ha habido innovación estructural, y la mayoría de los cambios han sido para mejorar la eficiencia del entrenamiento.
    • Si se toma una definición flexible de “competitivo”, incluso se podría implementar directamente una Markov chain.
      Los modelos Transformer son el resultado de una evolución gradual construida sobre la acumulación de muchos trabajos previos.
  • Cuando hice clic, esperaba que fuera sobre un LLM diseñando rascacielos, presas o puentes.
    Hasta preparé palomitas, así que me decepcionó un poco.