- GPT-2, GPT-3, Llama, Mixtral, DeepSeek, Minimax, Hunyuan, etc.: resumen de información objetiva y de la evolución de la escala de parámetros y la arquitectura de los principales modelos de lenguaje de gran tamaño
- GPT-2 (2019) tenía entre 130 millones y 1.6 mil millones de parámetros; GPT-3 (2020), 175 mil millones (175B); y Llama-3.1 (2024), 405 mil millones (405B), mostrando un rápido aumento en el tamaño de los modelos grandes
- Con la aparición de la arquitectura MoE (Mixture-of-Experts), se volvieron de código abierto/descargables modelos del nivel de GPT-3 o superiores; entre los ejemplos representativos están DeepSeek V3 Base (671 mil millones), ERNIE-4.5 (424 mil millones) y Mixtral-8x22B (141 mil millones), entre otros modelos ultragrandes
- La comparación entre modelos Dense (usan todos los parámetros) y MoE (activan solo algunos parámetros expertos) se ha vuelto más compleja, y no es fácil comparar la "inteligencia" real
- Últimamente han surgido varias tendencias de avance, como soporte multimodal y multilingüe, nuevas arquitecturas y uso de datos sintéticos
- Este documento organiza información factual sobre los cambios en el tamaño de los modelos base de los modelos de lenguaje grandes (LLM) en los últimos años
- Se enfoca no en chatbots o asistentes, sino en modelos cuyo propósito principal es ser motores de generación de texto
Historia
- GPT-2(-medium, -large, -xl) (2019): 137 millones, 380 millones, 812 millones y 1.61 mil millones de parámetros, respectivamente
- Fue entrenado con un dataset WebText de unos 40GB (estimado en mil millones de tokens)
- La lista de sitios usados puede consultarse en
domains.txt
- GPT-3(davinci, davinci-002) (2020): 175 mil millones de parámetros
- Fue entrenado con unos 400 mil millones de tokens de datos, incluyendo CommonCrawl, WebText2, Books1·2 y Wikipedia
- Requirió meses de entrenamiento con miles de GPUs A100 a gran escala
- GPT-3.5, GPT-4 (2022, 2023): no hay información oficial pública sobre arquitectura ni datos
Llama
- Llama es una serie de modelos de lenguaje grandes desarrollada por Meta (antes Facebook), que llamó la atención por su apertura como código abierto y por una arquitectura utilizable con relativamente menos recursos
- La evolución del tamaño del modelo (número de parámetros), los datos de entrenamiento y la arquitectura impulsó la tendencia open source de los LLM
-
Llama 1 (2023)
- 7B, 13B, 33B, 65B: ofrece 7 mil millones, 13 mil millones, 33 mil millones y 65 mil millones de parámetros
- Datos de entrenamiento: 1.4 billones (1.4T) de tokens de texto a gran escala (Books3, CommonCrawl, etc.)
- Llama 65B era, en ese momento, el modelo abierto más grande
- Books3 es un gran conjunto de datos que se volvió un punto clave en el debate legal sobre derechos de autor
- Características
- Puede ejecutarse incluso con GPUs relativamente pequeñas (hasta 65B funciona con 8 GPUs)
- Al distribuir pesos abiertos, se expandieron distintos modelos derivados y experimentos de la comunidad
-
Llama 2 (segunda mitad de 2023)
- Al publicarse, ofrecía 7 mil millones, 13 mil millones y 70 mil millones de parámetros (7B, 13B, 70B)
- También se publicó una versión conversacional (chatbot), con soporte para fine-tuning y RLHF (aprendizaje por refuerzo)
- Licencia que permite uso comunitario y comercial (con algunas restricciones)
-
Llama 3.1 (2024)
- 405B: 405 mil millones de parámetros dense (usa todos los parámetros)
- Datos de entrenamiento: 2.87 billones de tokens + 800 mil millones para contexto largo + 40 millones de annealing (adicionales de código/matemáticas de alta calidad, etc.) → total de 3.67 billones de tokens
- Arquitectura
- Basada en Transformer, usando simultáneamente todos los parámetros durante la inferencia (dense)
- Maximización de puntajes en benchmarks clave mediante la adición de datos de código y matemáticas de alta calidad (annealing)
- Características
- Es el modelo dense grande más reciente que puede descargarse (open source)
- Meta no revela públicamente la composición del dataset, y podría incluir datos polémicos por derechos de autor (como Books3)
- En algunas evaluaciones se considera que se reforzó su "tendencia de asistente", con una ligera diferencia respecto a su papel como motor puro de texto
-
Llama 4 (2025)
- Modelo más grande: 2 billones (2T) de parámetros MoE (Mixture-of-Experts)
- A288B 16E: 288 mil millones de parámetros activos, 16 expertos, con solo una parte activa del total de 2 billones de parámetros
- Situación
- El modelo 2T no fue publicado (solo para experimentos internos); solo se publicaron externamente versiones derivadas/reducidas (maverick, scout, etc.)
- Muchos consideran que los modelos derivados tienen menor "inteligencia" que el original
- Durante el proceso de publicación hubo controversias por manipulación de puntajes en benchmarks (caso lmarena), lo que redujo la confianza y dio pie a rumores de desintegración del equipo
- Características de la arquitectura MoE
- Al activar solo algunos parámetros expertos, ofrece mejor eficiencia computacional que un modelo dense con el mismo número de parámetros
- Incluso modelos ultragrandes pueden usarse en la práctica (en entornos distribuidos o con menos recursos)
-
Significado e impacto de Llama
- La serie Llama impulsó la expansión del ecosistema open source y la popularización de los modelos de lenguaje grandes
- La publicación de Llama-3.1 405B marcó el punto en que descargar y experimentar con modelos grandes al nivel de GPT-3/4 se volvió algo realista
- La introducción de la arquitectura MoE activó el entrenamiento y despliegue de modelos ultragrandes (también influyó en DeepSeek, Mixtral, etc.)
- Aun así, en los modelos recientes se discute el cambio en sus características como "modelos de lenguaje puros" debido a la optimización para benchmarks (annealing), el refuerzo del perfil de asistente, etc.
The desert – vacío y cambios en los grandes modelos open source
- Se refiere al largo período de vacío en el que no se podían conseguir como open source modelos de lenguaje grandes del nivel de GPT-3 (175 mil millones de parámetros) o superior
- En ese período (2020 ~ mediados de 2023) solo se publicaban modelos relativamente pequeños, como Llama por debajo de 70B, y
- Algunos proyectos intentaron elevar el rendimiento ajustando Llama pequeños (por ejemplo, 70B) con datos sintéticos generados por GPT-3
- Sin embargo, si texto generado por IA se vuelve a usar para entrenar otra IA, puede surgir el problema de degradación de la calidad de los datos ("degeneration")
- Entre las razones por las que durante mucho tiempo no hubo modelos open weight del nivel de GPT-3,
- se combinaron factores como el costo de entrenamiento (infraestructura de miles o decenas de miles de GPUs), la obtención de datos y la dificultad de distribuir arquitecturas con muchísimos parámetros
- Con la publicación del modelo Llama-3.1 405B (405 mil millones de parámetros dense) comenzó de lleno la apertura de modelos ultragrandes como open source
- Justo antes (diciembre de 2023), aparecieron Mixtral-8x7B de Mistral (arquitectura MoE, 56 mil millones de parámetros totales) y en abril de 2024 Mixtral-8x22B (141 mil millones totales, 39 mil millones de parámetros activos), entre otros
- Gracias a la arquitectura MoE (Mixture-of-Experts), fue posible entrenar y distribuir modelos grandes al nivel de GPT-3 con relativamente menos recursos
- La arquitectura MoE dispone de varias redes expertas (Expert) y solo activa algunas en cada inferencia
- Esto permite operar modelos grandes con menos recursos (memoria y cómputo) que una arquitectura dense
- Debido a los límites de cantidad de GPUs y memoria, MoE tuvo un papel decisivo en la masificación de los grandes modelos abiertos
Modelos grandes MoE (Mixture-of-Experts) más recientes
Deepseek V3 Base (2024)
- 671 mil millones de parámetros (MoE), 37 mil millones activos, entrenamiento con 14.8 billones de tokens de alta calidad
- También apareció R1 (modelo especializado en razonamiento), y fue el primer modelo descargable en acercarse al rendimiento del nivel GPT-4
- Poco después de su publicación, tuvo un gran impacto en el mercado, incluyendo una caída temporal en la acción de NVIDIA (NVDA)
- Después comenzaron a aparecer uno tras otro nuevos grandes modelos MoE emergentes, incluyendo varios de origen chino
- Algunos modelos incorporaron al entrenamiento nuevos tipos de datos para soportar capacidades multimodales y multilingües
Databricks (DBRX, marzo de 2024)
- 132 mil millones de parámetros totales, 36 mil millones activos, 12 billones de tokens
- Selecciona 4 de 16 expertos (más granular que Mistral y Grok)
Minimax (enero de 2025)
- 456 mil millones de parámetros totales, 45.9 mil millones activos, controla la calidad de los datos de entrenamiento con su propio reward labeler
Dots (junio de 2025)
- 143 mil millones de parámetros totales, 14 mil millones activos, 11.2 billones de tokens, contexto de 32K
- Arquitectura de expertos top-6/128, con rendimiento similar a Qwen2.5-72B
Hunyuan (junio de 2025)
- 80 mil millones MoE, 13 mil millones activos, 20 billones de tokens, contexto de 256K
- Activa 8 expertos no compartidos; los expertos compartidos permanecen siempre activos
Ernie (junio de 2025)
- 424 mil millones de parámetros totales, 47 mil millones activos, billones de tokens
Conclusión y perspectivas
- A partir de 2024 ~ 2025, se están publicando diversos modelos ultragrandes del nivel de GPT-3 (175 mil millones) o superiores
- 405B (405 mil millones) es el modelo base dense más reciente, pero los modelos MoE más recientes también siguen creciendo y diversificándose
- La comparación de rendimiento Dense vs MoE sigue siendo ambigua, y hace falta debatir qué estructura y qué tamaño se necesitan para una "inteligencia" real
- También se están probando nuevas estructuras (RWKV, byte-latent, bitnet) y el uso de datos sintéticos, pero el avance esencial como motor puro de texto sigue siendo un reto
- La mayoría de los modelos grandes recientes tienden a afinarse para cumplir el rol de "asistente de IA", por lo que es momento de explorar LLM alternativos
1 comentarios
Opiniones en Hacker News
Sigo sin dejar de asombrarme, no tanto por una opinión puramente técnica, sino por el hecho de cuántos datos están comprimidos dentro de estos modelos descargables. Ayer, en un avión sin internet inalámbrico, descargué mediante Ollama el modelo gemma3:12b (8.1GB) y me puse a hacerle todo tipo de preguntas con mis hijos. No fue perfecto con preguntas sobre videojuegos recientes, animales, historia y otros temas, pero me pareció increíble que un archivo tan pequeño contenga tanto del conocimiento humano y además pueda usarse sin conexión. Aunque sea compresión con pérdida, sorprende que el conocimiento humano pueda comprimirse tanto
Me parece realmente fascinante lo poderosos que pueden ser los modelos de lenguaje como herramientas de compresión. Si entrenas un modelo para uso de assistant, comprime mejor registros de conversaciones de asistente que texto general. Hay una evaluación llamada UncheatableEval, donde se puede entender la capacidad de compresión de los modelos de lenguaje aplicada a distintas tareas. Ese criterio de evaluación es, en esencia, una prueba que no se puede “hacer trampa”. Creo que el rendimiento de compresión es un benchmark genuino donde no caben atajos como en un juego
Recomiendo el proyecto Kiwix, que permite descargar y usar distintos materiales sin conexión. También ofrecen dispositivos con contenido precargado para lugares con acceso a internet inestable o inexistente
Como referencia, en la Wikipedia en inglés (26 de junio de 2025), hay más de 7 millones de artículos y 63 millones de páginas. Solo el texto ocupa unos 156GB, y si se suman todas las versiones, el tamaño total de la base de datos llega a unos 26TB
8.1GB es realmente mucho espacio. Son 64,800,000,000 bits; uno puede imaginar 100 bits o 1,000 bits, pero 10 mil, 1 millón, 64 millones, y luego este número que es 1,000 veces más grande, de verdad se siente enorme
El campo que estudia los modelos de lenguaje desde la teoría de la información o la compresión todavía es pequeño, pero se está volviendo cada vez más importante por eficiencia y escalabilidad. Hoy hubo una discusión sobre el tema, por si a alguien le interesa revisarla
Deepseek v1 tiene unos 670 mil millones de parámetros y un tamaño físico de 1.4TB. Si se comprimieran todos los libros digitalizados hasta ahora, calculo que serían unos pocos TB; la web pública, unos 50TB; y todo el texto electrónico en inglés comprimido con zip, algo del orden de O(100TB). El tamaño actual de los modelos es apenas alrededor del 1% del total, y parece que ya entramos en una etapa donde seguir aumentando tamaño ya no mejora el rendimiento tanto como antes (ver gpt4.5 vs 4o). Por eso últimamente, con los modelos de 'reasoning', el costo computacional se está desplazando hacia el tiempo de inferencia. Para obtener utilidad adicional, espero que en adelante evolucionen hacia modelos especializados enfocados en dominios concretos. Creo que 1TB de VRAM para inferencia podría ser una meta de mediano plazo para modelos open source de alta calidad. Es una especificación al alcance incluso de pymes (SME) (se estima cerca de 250B parámetros)
Si se añaden imágenes y video, estas estimaciones pueden sonar como aquellas viejas afirmaciones de que 640KB serían suficientes para todo. Después, si los robots empiezan a explorar el mundo por sí mismos y recolectar datos, se acumulará todavía más información. Hablando en serio, añadir datos de imagen e interacción sí tendría bastante utilidad incluso para generar texto
Hice los cálculos con cifras reales. Tomé 157 millones de papers y 52 millones de libros, suponiendo un promedio de 10 mil palabras por paper y 100 mil por libro, y calculé la tasa de compresión usando datos de muestra de libros. Da unos 30TB sin comprimir y 5.5TB comprimidos. Se podría guardar en 3 microSD de 2TB (750 dólares en total)
Una observación menor: no me parece adecuado usar notación big O (O(100TB)) para una cantidad fija de almacenamiento
Pregunto si esos 50TB están basados en la Library of Congress de Estados Unidos. Todo internet sería muchísimo más grande
Me pregunto de dónde sale esa cifra de “todos los libros digitalizados se comprimen a unos pocos TB, y la web pública son 50TB”. Si hay una fuente, me gustaría verla. Hace tiempo leí que todos los registros escritos de la humanidad hasta cierto siglo eran unos 50MB, pero no logro encontrar la fuente, así que quizá lo recuerde mal
Faltan los modelos de las series Gemma y Gemini (Google). Y también da pena que no se mencione la serie T5, que tuvo un papel importante en el transfer learning y en la difusión del campo. T5 puede considerarse el origen de muchas ideas
Si quieres verlo de forma visual, hay un recurso con un gráfico del total de parámetros por año: Total Parameters vs. Release Year by Family
Este gráfico muestra con muchísima claridad el enorme salto que fue GPT-3, y cómo durante mucho tiempo nadie logró alcanzar ese nivel después
Está increíble. Gracias por hacerlo. Dejé una captura del gráfico, el enlace y los créditos en los comentarios de mi publicación
Es un texto realmente bueno. Pero parte de la premisa de que solo estos modelos de lenguaje ultragrandes representan la mayor innovación. Los grandes jugadores han estado bastante silenciosos, y desde fuera OpenAI apenas dio alguna pista con sus acciones. Parece que construyeron modelos mucho más grandes, pero como los resultados fueron decepcionantes, abandonaron discretamente los experimentos. De hecho, puede que los modelos de reasoning de frontera más potentes sean más pequeños que algunos de los modelos gigantes públicos
La situación es irónica. La comunidad open source probó muchas cosas para igualar a GPT-3 (175B): modelos de 30~70B, RLHF, datos sintéticos, etc., pero la brecha seguía ahí. Al final, se confirmó que el tamaño intrínseco del modelo realmente importa, y solo cuando aparecieron modelos dense realmente enormes (405B) o modelos MoE (DeepSeek V3, DBRX, etc.) empezó a verse reasoning de nivel GPT-4 fuera de los labs cerrados
No estoy de acuerdo con la nota que dice que “la mayoría de los modelos open-source que se acercaron a GPT-3 fueron modelos Llama de unos 70B entrenados con datos sintéticos generados por GPT-3”. Si los datos sintéticos siempre degradaran el rendimiento, los laboratorios de IA jamás los usarían. En la práctica sí se están usando datos sintéticos para construir mejores modelos. Hay papers que muestran degradación cuando, de forma muy intencional, se hace un bucle de entrenamiento con las propias salidas del modelo, pero eso es distinto de cómo los laboratorios usan realmente los datos sintéticos. Ese paper se volvió popular porque la idea de una “IA que se come su propia cola y colapsa” es demasiado atractiva
Me parece una pena que la gente siga repitiendo que los LLM son compresión con pérdida. Como analogía general puede servir, pero el hecho más riguroso e interesante es que un LLM también puede funcionar como un algoritmo de compresión sin pérdida. Hay dos casos. 1) Se puede usar codificación aritmética para cualquier texto a un costo cercano a la log-verosimilitud del LLM (con la condición de que emisor y receptor tengan los mismos parámetros del LLM) 2) Usando un LLM y SGD (código de entrenamiento), se puede implementar compresión sin pérdida (aquí los parámetros del modelo no cuentan como longitud de descripción). Vale la pena ver el material de Jack Rae, “compression for AGI”
Con cifras como 1.61B no me hago una buena idea del tamaño real del archivo ni de cuánta VRAM se necesita. Me interesa saber el almacenamiento real y los requisitos de hardware: si comprara algo hoy, hasta dónde podría correr modelos, y qué tipo de modelos podría correr dentro de 10 años
Si cada parámetro ocupa 1 byte (f8), serían 1.6GB; si ocupa 2 bytes (f16), serían 2.3GB. Además de cargarlo en la GPU, hay consumo adicional de memoria, así que conviene calcular aproximadamente 4 veces el número de parámetros. Es decir, para un modelo de 2B parámetros se recomiendan 8GB de VRAM
La mayoría de los modelos se entrenan en 16 bits (2 bytes). Un modelo de mil millones de parámetros ocupa 2GB. Para uso real, suele bastar una cuantización más pequeña de 8 bits, y normalmente pasar de 16 bits a 8 bits casi no implica pérdida de rendimiento. Así que un modelo de mil millones queda en 1GB, y uno de 20B en 20GB, en cálculo simple. Incluso con menos bits (5 bits, 4 bits, etc.), si la pérdida de rendimiento no es grande, según el caso de uso sigue siendo totalmente viable. Incluso hay casos donde un modelo entrenado directamente a 4 bits mostró mejor calidad que uno cuantizado desde 16 bits. El cuello de botella en modelos grandes no es la capacidad de VRAM, sino el ancho de banda. Por eso importan las GPU con mucha VRAM. Aunque tengas 128GB de RAM del sistema, si te pasas de la memoria GPU, el ancho de banda entre GPU y CPU es insuficiente y al final la CPU termina siendo más lenta. Una GPU (por ejemplo, RTX 5090) tiene 32GB de VRAM y un ancho de banda del orden de 1Tb/s. Apple M series ofrece 512Gb/s, y AMD Strix Halo ofrece 128GB de memoria unificada y 256Gb/s de ancho de banda. Para experiencias reales corriendo LLM en hardware de consumo, vale la pena ver Reddit r/LocalLLaMA. Eso sí, hay que tomarlo con cautela porque ahí también se mezclan experimentos bastante extremos. Sobre cómo será dentro de 10 años, es imposible predecirlo. TSMC, Samsung e Intel están volcados a producir GPU flagship para la demanda de hyperscalers, y la industria de semiconductores atraviesa una etapa difícil de anticipar por múltiples variables (política, comercio, IA, eventos black swan, etc.)