- Con la publicación de los modelos gpt-oss-20b/120b como open weight por parte de OpenAI, aparece el primer LLM grande de OpenAI con pesos públicos desde GPT-2 en 2019
- Los modelos gpt-oss evolucionan frente a GPT-2 al reemplazar Dropout, Absolute Position Embedding y GELU por técnicas modernas más eficientes como RoPE, SwiGLU y RMSNorm
- Con la aplicación de Mixture-of-Experts (estructura modular de expertos), Sliding Window Attention y cuantización MXFP4, mejoran no solo la eficiencia de rendimiento sino también la ejecución en entornos de una sola GPU
- En la comparación con Qwen3, se confirma que hay varias diferencias en profundidad/ancho de la arquitectura, número de expertos, sesgo de atención y licencia open source, entre otros aspectos
- gpt-oss-20b asegura tanto utilidad práctica como margen de expansión para investigación gracias a su aligeramiento adaptado al hardware moderno y a la función de ajuste del reasoning effort
Panorama general e innovaciones principales
- OpenAI publicó gpt-oss-20b/120b como open weight por primera vez desde GPT-2 en 2019
- Hace posible ejecutar 20B en GPUs de usuario común (hasta 16 GB de RAM) y 120B en una H100 de 80 GB
- Con optimización MXFP4, permite ejecución en una sola GPU y amplía el acceso para consumidores
Cambios principales de arquitectura: GPT-2 → gpt-oss
Eliminación de Dropout
- GPT-2 incluía Dropout, pero en entornos de entrenamiento con grandes volúmenes de datos y un solo epoch se comprobó que más bien reduce el rendimiento
- Resultados de investigación recientes también muestran que no aplicar Dropout ofrece mejor desempeño en tareas downstream de los LLM
Adopción de RoPE (Rotary Position Embedding)
- En lugar del embedding posicional absoluto tradicional, RoPE (Rotary Position Embedding) se ha consolidado como la opción dominante
- RoPE rota el ángulo de los vectores query/key según la posición para ofrecer información posicional más flexible y generalizable
Función de activación SwiGLU e introducción de GLU
- Con la adopción de enfoques GLU como GEGLU/SwiGLU, se logra una capacidad de representación superior con menos parámetros que una FFN tradicional de 2 capas
- Swish también es computacionalmente más eficiente que GELU
Aplicación de Mixture-of-Experts (MoE)
- En lugar de una sola FFN, se utilizan múltiples redes de expertos (Experts) y solo algunos expertos se activan en cada generación de token
- Se incrementa drásticamente el número de parámetros del modelo manteniendo la eficiencia de inferencia (esparsidad) y ampliando la capacidad de entrenamiento
Introducción de Grouped Query Attention (GQA)
- Frente al Multi-Head Attention tradicional, compartir key/value reduce memoria y cómputo
- Mejora la eficiencia sin pérdida de rendimiento y tiende a convertirse en una práctica estándar en LLM de gran escala
Uso de Sliding Window Attention
- En algunas capas, en vez de usar todo el contexto, se calcula atención local con una Sliding Window limitada a los 128 tokens más recientes, minimizando el uso de memoria
- Permite inferencia rápida sin degradación de rendimiento y soporte para contextos extensos
Adopción de RMSNorm
- Aplicar RMSNorm en lugar de LayerNorm aumenta la eficiencia computacional
- En lugar de calcular media/varianza como LayerNorm, usa RMS (raíz media cuadrática), reduciendo la carga de cálculo en GPU
Comparación entre gpt-oss y Qwen3
Diferencias de escala/estructura
- Qwen3 tiene una estructura más profunda (48 bloques Transformer), mientras que gpt-oss tiene una estructura más ancha (mayor emb dimension y más heads)
- Los modelos profundos son más flexibles pero más difíciles de entrenar; los anchos favorecen la paralelización en inferencia (según el paper de Gemma 2, en el modelo de 9B el más ancho tiene una ligera ventaja)
Diferencias en la estructura MoE
- gpt-oss-20b: 32 expertos grandes, con solo 4 activos
- Qwen3: muchos expertos pequeños, con 8 activos
- La tendencia reciente apunta a que una configuración con más expertos pequeños es más efectiva, pero gpt-oss mantiene una estructura de pocos expertos grandes (en 20B y 120B solo se ajusta el número de expertos y bloques)
Attention Bias y Sinks
- gpt-oss usa unidades de bias en la atención (un enfoque poco común desde la época de GPT-2)
- Sin embargo, investigaciones recientes muestran que su efecto en key-proj es mínimo
- El attention sink es el concepto de un token especial al que siempre se atiende al inicio de la secuencia, pero en gpt-oss se aplica a cada head como un learned bias logit sin modificar los tokens de entrada
Licencia y alcance de publicación
- Usa licencia open source Apache 2.0, lo que permite uso comercial y creación de modelos derivados
- Aun así, no es open source en el sentido estricto (no publica código de entrenamiento ni datasets), sino un modelo open weight
Otros detalles y operación real
Entrenamiento/optimización
- gpt-oss se entrenó con 2.1M H100-hours de recursos de cómputo
- Enfocado en inglés y en STEM, código y texto de conocimiento general
- Aplica técnicas modernas como pretraining + fine-tuning supervisado (Instruction) y etapas de reasoning basadas en RL
Ajuste de Reasoning Effort
- A través del system prompt se puede configurar el reasoning effort (bajo/medio/alto) para ajustar automáticamente la longitud y precisión de las respuestas
- Las tareas simples pueden resolverse rápido con baja intensidad, y si se necesita reasoning complejo puede configurarse más alto
Soporte para una sola GPU con cuantización MXFP4
- Gracias al formato MXFP4, incluso 20B puede ejecutarse en 16 GB de VRAM (se requiere una GPU moderna)
- En el caso de 120B, con 80 GB de memoria en una H100 puede ejecutarse en una sola GPU, sin procesamiento distribuido y con operación sencilla
Benchmarks y usabilidad real
- gpt-oss tiene un enfoque de entrenamiento muy centrado en reasoning, por lo que en algunas preguntas de conocimiento general puede mostrar tendencia a la alucinación (hallucination)
- En términos de usabilidad, se encuentra entre los mejores modelos abiertos disponibles, y se espera que su utilidad práctica aumente al combinarse con tool integration
- En uso real, todavía hace falta comparar mejor el equilibrio entre precisión y reasoning frente a otros modelos abiertos
Comparación con GPT-5
- gpt-oss-120b muestra un rendimiento cercano al modelo comercial de OpenAI (GPT-5) según benchmarks
- Aún está por verse si mantendrá ventaja en entornos reales, pero es una alternativa potente entre los LLM más recientes ofrecidos como open weight
- Los benchmarks por sí solos no bastan para explicar por completo la competitividad en escenarios reales, pero ofrece una gran oportunidad para comparaciones externas e investigación futura
Resumen
- La aparición de la serie gpt-oss marca un nuevo referente en el campo de los LLM grandes con open weight, y permite comparar y analizar en detalle cómo se implementan y aplican en la práctica las arquitecturas innovadoras adoptadas por los LLM modernos
- También permite identificar diferencias y tendencias frente a otros modelos recientes como Qwen3 y GPT-5, lo que resulta útil para aplicaciones reales e investigación
Aún no hay comentarios.