GPT-OSS vs. Qwen3 y una comparación detallada de la evolución de la arquitectura LLM desde GPT-2
(magazine.sebastianraschka.com)- Con la publicación de los modelos gpt-oss-20b/120b como open weight por parte de OpenAI, aparece el primer LLM grande de OpenAI con pesos públicos desde GPT-2 en 2019
- Los modelos gpt-oss evolucionan frente a GPT-2 al reemplazar Dropout, Absolute Position Embedding y GELU por técnicas modernas más eficientes como RoPE, SwiGLU y RMSNorm
- Con la aplicación de Mixture-of-Experts (estructura modular de expertos), Sliding Window Attention y cuantización MXFP4, mejoran no solo la eficiencia de rendimiento sino también la ejecución en entornos de una sola GPU
- En la comparación con Qwen3, se confirma que hay varias diferencias en profundidad/ancho de la arquitectura, número de expertos, sesgo de atención y licencia open source, entre otros aspectos
- gpt-oss-20b asegura tanto utilidad práctica como margen de expansión para investigación gracias a su aligeramiento adaptado al hardware moderno y a la función de ajuste del reasoning effort
Panorama general e innovaciones principales
- OpenAI publicó gpt-oss-20b/120b como open weight por primera vez desde GPT-2 en 2019
- Hace posible ejecutar 20B en GPUs de usuario común (hasta 16 GB de RAM) y 120B en una H100 de 80 GB
- Con optimización MXFP4, permite ejecución en una sola GPU y amplía el acceso para consumidores
Cambios principales de arquitectura: GPT-2 → gpt-oss
Eliminación de Dropout
- GPT-2 incluía Dropout, pero en entornos de entrenamiento con grandes volúmenes de datos y un solo epoch se comprobó que más bien reduce el rendimiento
- Resultados de investigación recientes también muestran que no aplicar Dropout ofrece mejor desempeño en tareas downstream de los LLM
Adopción de RoPE (Rotary Position Embedding)
- En lugar del embedding posicional absoluto tradicional, RoPE (Rotary Position Embedding) se ha consolidado como la opción dominante
- RoPE rota el ángulo de los vectores query/key según la posición para ofrecer información posicional más flexible y generalizable
Función de activación SwiGLU e introducción de GLU
- Con la adopción de enfoques GLU como GEGLU/SwiGLU, se logra una capacidad de representación superior con menos parámetros que una FFN tradicional de 2 capas
- Swish también es computacionalmente más eficiente que GELU
Aplicación de Mixture-of-Experts (MoE)
- En lugar de una sola FFN, se utilizan múltiples redes de expertos (Experts) y solo algunos expertos se activan en cada generación de token
- Se incrementa drásticamente el número de parámetros del modelo manteniendo la eficiencia de inferencia (esparsidad) y ampliando la capacidad de entrenamiento
Introducción de Grouped Query Attention (GQA)
- Frente al Multi-Head Attention tradicional, compartir key/value reduce memoria y cómputo
- Mejora la eficiencia sin pérdida de rendimiento y tiende a convertirse en una práctica estándar en LLM de gran escala
Uso de Sliding Window Attention
- En algunas capas, en vez de usar todo el contexto, se calcula atención local con una Sliding Window limitada a los 128 tokens más recientes, minimizando el uso de memoria
- Permite inferencia rápida sin degradación de rendimiento y soporte para contextos extensos
Adopción de RMSNorm
- Aplicar RMSNorm en lugar de LayerNorm aumenta la eficiencia computacional
- En lugar de calcular media/varianza como LayerNorm, usa RMS (raíz media cuadrática), reduciendo la carga de cálculo en GPU
Comparación entre gpt-oss y Qwen3
Diferencias de escala/estructura
- Qwen3 tiene una estructura más profunda (48 bloques Transformer), mientras que gpt-oss tiene una estructura más ancha (mayor emb dimension y más heads)
- Los modelos profundos son más flexibles pero más difíciles de entrenar; los anchos favorecen la paralelización en inferencia (según el paper de Gemma 2, en el modelo de 9B el más ancho tiene una ligera ventaja)
Diferencias en la estructura MoE
- gpt-oss-20b: 32 expertos grandes, con solo 4 activos
- Qwen3: muchos expertos pequeños, con 8 activos
- La tendencia reciente apunta a que una configuración con más expertos pequeños es más efectiva, pero gpt-oss mantiene una estructura de pocos expertos grandes (en 20B y 120B solo se ajusta el número de expertos y bloques)
Attention Bias y Sinks
- gpt-oss usa unidades de bias en la atención (un enfoque poco común desde la época de GPT-2)
- Sin embargo, investigaciones recientes muestran que su efecto en key-proj es mínimo
- El attention sink es el concepto de un token especial al que siempre se atiende al inicio de la secuencia, pero en gpt-oss se aplica a cada head como un learned bias logit sin modificar los tokens de entrada
Licencia y alcance de publicación
- Usa licencia open source Apache 2.0, lo que permite uso comercial y creación de modelos derivados
- Aun así, no es open source en el sentido estricto (no publica código de entrenamiento ni datasets), sino un modelo open weight
Otros detalles y operación real
Entrenamiento/optimización
- gpt-oss se entrenó con 2.1M H100-hours de recursos de cómputo
- Enfocado en inglés y en STEM, código y texto de conocimiento general
- Aplica técnicas modernas como pretraining + fine-tuning supervisado (Instruction) y etapas de reasoning basadas en RL
Ajuste de Reasoning Effort
- A través del system prompt se puede configurar el reasoning effort (bajo/medio/alto) para ajustar automáticamente la longitud y precisión de las respuestas
- Las tareas simples pueden resolverse rápido con baja intensidad, y si se necesita reasoning complejo puede configurarse más alto
Soporte para una sola GPU con cuantización MXFP4
- Gracias al formato MXFP4, incluso 20B puede ejecutarse en 16 GB de VRAM (se requiere una GPU moderna)
- En el caso de 120B, con 80 GB de memoria en una H100 puede ejecutarse en una sola GPU, sin procesamiento distribuido y con operación sencilla
Benchmarks y usabilidad real
- gpt-oss tiene un enfoque de entrenamiento muy centrado en reasoning, por lo que en algunas preguntas de conocimiento general puede mostrar tendencia a la alucinación (hallucination)
- En términos de usabilidad, se encuentra entre los mejores modelos abiertos disponibles, y se espera que su utilidad práctica aumente al combinarse con tool integration
- En uso real, todavía hace falta comparar mejor el equilibrio entre precisión y reasoning frente a otros modelos abiertos
Comparación con GPT-5
- gpt-oss-120b muestra un rendimiento cercano al modelo comercial de OpenAI (GPT-5) según benchmarks
- Aún está por verse si mantendrá ventaja en entornos reales, pero es una alternativa potente entre los LLM más recientes ofrecidos como open weight
- Los benchmarks por sí solos no bastan para explicar por completo la competitividad en escenarios reales, pero ofrece una gran oportunidad para comparaciones externas e investigación futura
Resumen
- La aparición de la serie gpt-oss marca un nuevo referente en el campo de los LLM grandes con open weight, y permite comparar y analizar en detalle cómo se implementan y aplican en la práctica las arquitecturas innovadoras adoptadas por los LLM modernos
- También permite identificar diferencias y tendencias frente a otros modelos recientes como Qwen3 y GPT-5, lo que resulta útil para aplicaciones reales e investigación
1 comentarios
Opiniones de Hacker News
Confirmé que Qwen3 es mucho mejor en pruebas locales. En la versión de 32B parámetros, sigue el prompt casi a la perfección y produce resultados naturales. En cambio, simplebench gpt-oss (120B) muestra un rendimiento pobre en acertijos lógicos. Creo que esta diferencia viene del método de entrenamiento, las dimensiones del modelo y del uso de pocos expertos grandes vs. muchos expertos pequeños
Las publicaciones del blog de Sebastian Raschk son una mina de oro. Uso get-oss y modelos qwen3 localmente con Ollama y LM Studio, y para modelos grandes uso APIs comerciales. get-oss da buenos resultados si le pasas mucho contexto en el prompt, y qwen3 simplemente es excelente. Hasta hace 3 años entendía lo suficiente como para implementar redes neuronales, GAN, RNN, LSTM y demás en la práctica, pero los LLM de hoy ya no se sienten tan fáciles de desarrollar por cuenta propia, lo cual me da algo de pena. También estoy viendo el libro de Sebastian Raschk, aunque probablemente no lo termine completo
En mi GPU 3090 local corrí qwen3 coder instruct 30b-a3b exl3 q6, e hice que creara una página de ejemplo, levantara un servidor, detectara un servidor ya existente, lo cerrara directamente (incluso pidiendo permisos), luego lo reiniciara y encontrara la IP automáticamente para abrirla en el navegador. Ya no es solo un demo simple, sino ayuda realmente útil incluso para un junior o un intern
En mi experiencia, qwen3-coder es muy superior. También instalé gpt-oss:20b, pero cuando le pedí resumir código, qwen3 respondió en segundos y gpt-oss no hizo nada por más de 5 minutos, así que lo detuve. Por eso ahora solo uso qwen3. Si no obtengo la respuesta que quiero, uso un buscador o Perplexity. Tengo una 3080 de 10GB, Ryzen 3600x y 32GB de RAM. Qwen3-coder es lo mejor que he usado hasta ahora
Me parece interesante que los LLM open weight de hoy tengan arquitecturas tan parecidas, y que la innovación esté ocurriendo solo en datos o RL. Antes, en las grandes organizaciones de ML, parecía que lo más importante era ajustar la arquitectura, pero la realidad ahora se ve diferente
Estoy usando el modelo Qwen3 4B localmente y de verdad me ha funcionado muy bien. Casi no uso modelos en línea, y hasta la búsqueda web está mucho mejor dirigida. No confío ciegamente en él, pero en general está bien. Estoy convencido de que estos modelos open source van a cambiar por completo el panorama de la automatización local del conocimiento
En LM Arena, el modelo con mejor rendimiento que no está basado en un Transformer puro es Jamba (una arquitectura híbrida de Transformers y state space models, puesto 96). Tencent hunyuan-turbos también es híbrido y ocupa el puesto 22. Ver el paper de arxiv
Los LLM normalmente entrenan con datasets gigantescos una sola vez (un solo epoch). Es un entorno distinto al de Dropout, que asumía entrenamiento repetido muchas veces (cientos de epochs)
Me pregunto cuánto más podrían mejorar los modelos publicados por los grandes laboratorios si recibieran entrenamiento adicional. Por ejemplo, si GPT-OSS entrenó durante 2.1 millones de horas, me gustaría saber cuánto mejoraría si eso se duplicara
Al entrar al sitio me aparece el mensaje de error "Tu conexión no es privada". Dice: "No puedes visitar magazine.sebastianraschka.com en este momento porque el sitio web usa HSTS". Estoy en Ubuntu con la versión más reciente de Chrome