GPT-OSS vs. Qwen3 y una comparación detallada de la evolución de la arquitectura LLM desde GPT-2

(magazine.sebastianraschka.com)

27 puntos por GN⁺ 2025-08-11 | Aún no hay comentarios. | Compartir por WhatsApp

Con la publicación de los modelos gpt-oss-20b/120b como open weight por parte de OpenAI, aparece el primer LLM grande de OpenAI con pesos públicos desde GPT-2 en 2019
Los modelos gpt-oss evolucionan frente a GPT-2 al reemplazar Dropout, Absolute Position Embedding y GELU por técnicas modernas más eficientes como RoPE, SwiGLU y RMSNorm
Con la aplicación de Mixture-of-Experts (estructura modular de expertos), Sliding Window Attention y cuantización MXFP4, mejoran no solo la eficiencia de rendimiento sino también la ejecución en entornos de una sola GPU
En la comparación con Qwen3, se confirma que hay varias diferencias en profundidad/ancho de la arquitectura, número de expertos, sesgo de atención y licencia open source, entre otros aspectos
gpt-oss-20b asegura tanto utilidad práctica como margen de expansión para investigación gracias a su aligeramiento adaptado al hardware moderno y a la función de ajuste del reasoning effort

Panorama general e innovaciones principales

OpenAI publicó gpt-oss-20b/120b como open weight por primera vez desde GPT-2 en 2019
- Hace posible ejecutar 20B en GPUs de usuario común (hasta 16 GB de RAM) y 120B en una H100 de 80 GB
- Con optimización MXFP4, permite ejecución en una sola GPU y amplía el acceso para consumidores

Cambios principales de arquitectura: GPT-2 → gpt-oss

Eliminación de Dropout

GPT-2 incluía Dropout, pero en entornos de entrenamiento con grandes volúmenes de datos y un solo epoch se comprobó que más bien reduce el rendimiento
Resultados de investigación recientes también muestran que no aplicar Dropout ofrece mejor desempeño en tareas downstream de los LLM

Adopción de RoPE (Rotary Position Embedding)

En lugar del embedding posicional absoluto tradicional, RoPE (Rotary Position Embedding) se ha consolidado como la opción dominante
RoPE rota el ángulo de los vectores query/key según la posición para ofrecer información posicional más flexible y generalizable

Función de activación SwiGLU e introducción de GLU

Con la adopción de enfoques GLU como GEGLU/SwiGLU, se logra una capacidad de representación superior con menos parámetros que una FFN tradicional de 2 capas
Swish también es computacionalmente más eficiente que GELU

Aplicación de Mixture-of-Experts (MoE)

En lugar de una sola FFN, se utilizan múltiples redes de expertos (Experts) y solo algunos expertos se activan en cada generación de token
Se incrementa drásticamente el número de parámetros del modelo manteniendo la eficiencia de inferencia (esparsidad) y ampliando la capacidad de entrenamiento

Introducción de Grouped Query Attention (GQA)

Frente al Multi-Head Attention tradicional, compartir key/value reduce memoria y cómputo
Mejora la eficiencia sin pérdida de rendimiento y tiende a convertirse en una práctica estándar en LLM de gran escala

Uso de Sliding Window Attention

En algunas capas, en vez de usar todo el contexto, se calcula atención local con una Sliding Window limitada a los 128 tokens más recientes, minimizando el uso de memoria
Permite inferencia rápida sin degradación de rendimiento y soporte para contextos extensos

Adopción de RMSNorm

Aplicar RMSNorm en lugar de LayerNorm aumenta la eficiencia computacional
En lugar de calcular media/varianza como LayerNorm, usa RMS (raíz media cuadrática), reduciendo la carga de cálculo en GPU

Comparación entre gpt-oss y Qwen3

Diferencias de escala/estructura

Qwen3 tiene una estructura más profunda (48 bloques Transformer), mientras que gpt-oss tiene una estructura más ancha (mayor emb dimension y más heads)
Los modelos profundos son más flexibles pero más difíciles de entrenar; los anchos favorecen la paralelización en inferencia (según el paper de Gemma 2, en el modelo de 9B el más ancho tiene una ligera ventaja)

Diferencias en la estructura MoE

gpt-oss-20b: 32 expertos grandes, con solo 4 activos
Qwen3: muchos expertos pequeños, con 8 activos
La tendencia reciente apunta a que una configuración con más expertos pequeños es más efectiva, pero gpt-oss mantiene una estructura de pocos expertos grandes (en 20B y 120B solo se ajusta el número de expertos y bloques)

Attention Bias y Sinks

gpt-oss usa unidades de bias en la atención (un enfoque poco común desde la época de GPT-2)
- Sin embargo, investigaciones recientes muestran que su efecto en key-proj es mínimo
El attention sink es el concepto de un token especial al que siempre se atiende al inicio de la secuencia, pero en gpt-oss se aplica a cada head como un learned bias logit sin modificar los tokens de entrada

Licencia y alcance de publicación

Usa licencia open source Apache 2.0, lo que permite uso comercial y creación de modelos derivados
Aun así, no es open source en el sentido estricto (no publica código de entrenamiento ni datasets), sino un modelo open weight

Otros detalles y operación real

Entrenamiento/optimización

gpt-oss se entrenó con 2.1M H100-hours de recursos de cómputo
Enfocado en inglés y en STEM, código y texto de conocimiento general
Aplica técnicas modernas como pretraining + fine-tuning supervisado (Instruction) y etapas de reasoning basadas en RL

Ajuste de Reasoning Effort

A través del system prompt se puede configurar el reasoning effort (bajo/medio/alto) para ajustar automáticamente la longitud y precisión de las respuestas
Las tareas simples pueden resolverse rápido con baja intensidad, y si se necesita reasoning complejo puede configurarse más alto

Soporte para una sola GPU con cuantización MXFP4

Gracias al formato MXFP4, incluso 20B puede ejecutarse en 16 GB de VRAM (se requiere una GPU moderna)
En el caso de 120B, con 80 GB de memoria en una H100 puede ejecutarse en una sola GPU, sin procesamiento distribuido y con operación sencilla

Benchmarks y usabilidad real

gpt-oss tiene un enfoque de entrenamiento muy centrado en reasoning, por lo que en algunas preguntas de conocimiento general puede mostrar tendencia a la alucinación (hallucination)
En términos de usabilidad, se encuentra entre los mejores modelos abiertos disponibles, y se espera que su utilidad práctica aumente al combinarse con tool integration
En uso real, todavía hace falta comparar mejor el equilibrio entre precisión y reasoning frente a otros modelos abiertos

Comparación con GPT-5

gpt-oss-120b muestra un rendimiento cercano al modelo comercial de OpenAI (GPT-5) según benchmarks
Aún está por verse si mantendrá ventaja en entornos reales, pero es una alternativa potente entre los LLM más recientes ofrecidos como open weight
Los benchmarks por sí solos no bastan para explicar por completo la competitividad en escenarios reales, pero ofrece una gran oportunidad para comparaciones externas e investigación futura

Resumen

La aparición de la serie gpt-oss marca un nuevo referente en el campo de los LLM grandes con open weight, y permite comparar y analizar en detalle cómo se implementan y aplican en la práctica las arquitecturas innovadoras adoptadas por los LLM modernos
También permite identificar diferencias y tendencias frente a otros modelos recientes como Qwen3 y GPT-5, lo que resulta útil para aplicaciones reales e investigación

GPT-OSS vs. Qwen3 y una comparación detallada de la evolución de la arquitectura LLM desde GPT-2

Panorama general e innovaciones principales

Cambios principales de arquitectura: GPT-2 → gpt-oss

Eliminación de Dropout

Adopción de RoPE (Rotary Position Embedding)

Función de activación SwiGLU e introducción de GLU

Aplicación de Mixture-of-Experts (MoE)

Introducción de Grouped Query Attention (GQA)

Uso de Sliding Window Attention

Adopción de RMSNorm

Comparación entre gpt-oss y Qwen3

Diferencias de escala/estructura

Diferencias en la estructura MoE

Attention Bias y Sinks

Licencia y alcance de publicación

Otros detalles y operación real

Entrenamiento/optimización

Ajuste de Reasoning Effort

Soporte para una sola GPU con cuantización MXFP4

Benchmarks y usabilidad real

Comparación con GPT-5

Resumen

Lecturas relacionadas

Aún no hay comentarios.