27 puntos por GN⁺ 2025-08-11 | Aún no hay comentarios. | Compartir por WhatsApp
  • Con la publicación de los modelos gpt-oss-20b/120b como open weight por parte de OpenAI, aparece el primer LLM grande de OpenAI con pesos públicos desde GPT-2 en 2019
  • Los modelos gpt-oss evolucionan frente a GPT-2 al reemplazar Dropout, Absolute Position Embedding y GELU por técnicas modernas más eficientes como RoPE, SwiGLU y RMSNorm
  • Con la aplicación de Mixture-of-Experts (estructura modular de expertos), Sliding Window Attention y cuantización MXFP4, mejoran no solo la eficiencia de rendimiento sino también la ejecución en entornos de una sola GPU
  • En la comparación con Qwen3, se confirma que hay varias diferencias en profundidad/ancho de la arquitectura, número de expertos, sesgo de atención y licencia open source, entre otros aspectos
  • gpt-oss-20b asegura tanto utilidad práctica como margen de expansión para investigación gracias a su aligeramiento adaptado al hardware moderno y a la función de ajuste del reasoning effort

Panorama general e innovaciones principales

  • OpenAI publicó gpt-oss-20b/120b como open weight por primera vez desde GPT-2 en 2019
    • Hace posible ejecutar 20B en GPUs de usuario común (hasta 16 GB de RAM) y 120B en una H100 de 80 GB
    • Con optimización MXFP4, permite ejecución en una sola GPU y amplía el acceso para consumidores

Cambios principales de arquitectura: GPT-2 → gpt-oss

Eliminación de Dropout

  • GPT-2 incluía Dropout, pero en entornos de entrenamiento con grandes volúmenes de datos y un solo epoch se comprobó que más bien reduce el rendimiento
  • Resultados de investigación recientes también muestran que no aplicar Dropout ofrece mejor desempeño en tareas downstream de los LLM

Adopción de RoPE (Rotary Position Embedding)

  • En lugar del embedding posicional absoluto tradicional, RoPE (Rotary Position Embedding) se ha consolidado como la opción dominante
  • RoPE rota el ángulo de los vectores query/key según la posición para ofrecer información posicional más flexible y generalizable

Función de activación SwiGLU e introducción de GLU

  • Con la adopción de enfoques GLU como GEGLU/SwiGLU, se logra una capacidad de representación superior con menos parámetros que una FFN tradicional de 2 capas
  • Swish también es computacionalmente más eficiente que GELU

Aplicación de Mixture-of-Experts (MoE)

  • En lugar de una sola FFN, se utilizan múltiples redes de expertos (Experts) y solo algunos expertos se activan en cada generación de token
  • Se incrementa drásticamente el número de parámetros del modelo manteniendo la eficiencia de inferencia (esparsidad) y ampliando la capacidad de entrenamiento

Introducción de Grouped Query Attention (GQA)

  • Frente al Multi-Head Attention tradicional, compartir key/value reduce memoria y cómputo
  • Mejora la eficiencia sin pérdida de rendimiento y tiende a convertirse en una práctica estándar en LLM de gran escala

Uso de Sliding Window Attention

  • En algunas capas, en vez de usar todo el contexto, se calcula atención local con una Sliding Window limitada a los 128 tokens más recientes, minimizando el uso de memoria
  • Permite inferencia rápida sin degradación de rendimiento y soporte para contextos extensos

Adopción de RMSNorm

  • Aplicar RMSNorm en lugar de LayerNorm aumenta la eficiencia computacional
  • En lugar de calcular media/varianza como LayerNorm, usa RMS (raíz media cuadrática), reduciendo la carga de cálculo en GPU

Comparación entre gpt-oss y Qwen3

Diferencias de escala/estructura

  • Qwen3 tiene una estructura más profunda (48 bloques Transformer), mientras que gpt-oss tiene una estructura más ancha (mayor emb dimension y más heads)
  • Los modelos profundos son más flexibles pero más difíciles de entrenar; los anchos favorecen la paralelización en inferencia (según el paper de Gemma 2, en el modelo de 9B el más ancho tiene una ligera ventaja)

Diferencias en la estructura MoE

  • gpt-oss-20b: 32 expertos grandes, con solo 4 activos
  • Qwen3: muchos expertos pequeños, con 8 activos
  • La tendencia reciente apunta a que una configuración con más expertos pequeños es más efectiva, pero gpt-oss mantiene una estructura de pocos expertos grandes (en 20B y 120B solo se ajusta el número de expertos y bloques)

Attention Bias y Sinks

  • gpt-oss usa unidades de bias en la atención (un enfoque poco común desde la época de GPT-2)
    • Sin embargo, investigaciones recientes muestran que su efecto en key-proj es mínimo
  • El attention sink es el concepto de un token especial al que siempre se atiende al inicio de la secuencia, pero en gpt-oss se aplica a cada head como un learned bias logit sin modificar los tokens de entrada

Licencia y alcance de publicación

  • Usa licencia open source Apache 2.0, lo que permite uso comercial y creación de modelos derivados
  • Aun así, no es open source en el sentido estricto (no publica código de entrenamiento ni datasets), sino un modelo open weight

Otros detalles y operación real

Entrenamiento/optimización

  • gpt-oss se entrenó con 2.1M H100-hours de recursos de cómputo
  • Enfocado en inglés y en STEM, código y texto de conocimiento general
  • Aplica técnicas modernas como pretraining + fine-tuning supervisado (Instruction) y etapas de reasoning basadas en RL

Ajuste de Reasoning Effort

  • A través del system prompt se puede configurar el reasoning effort (bajo/medio/alto) para ajustar automáticamente la longitud y precisión de las respuestas
  • Las tareas simples pueden resolverse rápido con baja intensidad, y si se necesita reasoning complejo puede configurarse más alto

Soporte para una sola GPU con cuantización MXFP4

  • Gracias al formato MXFP4, incluso 20B puede ejecutarse en 16 GB de VRAM (se requiere una GPU moderna)
  • En el caso de 120B, con 80 GB de memoria en una H100 puede ejecutarse en una sola GPU, sin procesamiento distribuido y con operación sencilla

Benchmarks y usabilidad real

  • gpt-oss tiene un enfoque de entrenamiento muy centrado en reasoning, por lo que en algunas preguntas de conocimiento general puede mostrar tendencia a la alucinación (hallucination)
  • En términos de usabilidad, se encuentra entre los mejores modelos abiertos disponibles, y se espera que su utilidad práctica aumente al combinarse con tool integration
  • En uso real, todavía hace falta comparar mejor el equilibrio entre precisión y reasoning frente a otros modelos abiertos

Comparación con GPT-5

  • gpt-oss-120b muestra un rendimiento cercano al modelo comercial de OpenAI (GPT-5) según benchmarks
  • Aún está por verse si mantendrá ventaja en entornos reales, pero es una alternativa potente entre los LLM más recientes ofrecidos como open weight
  • Los benchmarks por sí solos no bastan para explicar por completo la competitividad en escenarios reales, pero ofrece una gran oportunidad para comparaciones externas e investigación futura

Resumen

  • La aparición de la serie gpt-oss marca un nuevo referente en el campo de los LLM grandes con open weight, y permite comparar y analizar en detalle cómo se implementan y aplican en la práctica las arquitecturas innovadoras adoptadas por los LLM modernos
  • También permite identificar diferencias y tendencias frente a otros modelos recientes como Qwen3 y GPT-5, lo que resulta útil para aplicaciones reales e investigación

Aún no hay comentarios.

Aún no hay comentarios.