27 puntos por GN⁺ 2025-08-11 | 1 comentarios | Compartir por WhatsApp
  • Con la publicación de los modelos gpt-oss-20b/120b como open weight por parte de OpenAI, aparece el primer LLM grande de OpenAI con pesos públicos desde GPT-2 en 2019
  • Los modelos gpt-oss evolucionan frente a GPT-2 al reemplazar Dropout, Absolute Position Embedding y GELU por técnicas modernas más eficientes como RoPE, SwiGLU y RMSNorm
  • Con la aplicación de Mixture-of-Experts (estructura modular de expertos), Sliding Window Attention y cuantización MXFP4, mejoran no solo la eficiencia de rendimiento sino también la ejecución en entornos de una sola GPU
  • En la comparación con Qwen3, se confirma que hay varias diferencias en profundidad/ancho de la arquitectura, número de expertos, sesgo de atención y licencia open source, entre otros aspectos
  • gpt-oss-20b asegura tanto utilidad práctica como margen de expansión para investigación gracias a su aligeramiento adaptado al hardware moderno y a la función de ajuste del reasoning effort

Panorama general e innovaciones principales

  • OpenAI publicó gpt-oss-20b/120b como open weight por primera vez desde GPT-2 en 2019
    • Hace posible ejecutar 20B en GPUs de usuario común (hasta 16 GB de RAM) y 120B en una H100 de 80 GB
    • Con optimización MXFP4, permite ejecución en una sola GPU y amplía el acceso para consumidores

Cambios principales de arquitectura: GPT-2 → gpt-oss

Eliminación de Dropout

  • GPT-2 incluía Dropout, pero en entornos de entrenamiento con grandes volúmenes de datos y un solo epoch se comprobó que más bien reduce el rendimiento
  • Resultados de investigación recientes también muestran que no aplicar Dropout ofrece mejor desempeño en tareas downstream de los LLM

Adopción de RoPE (Rotary Position Embedding)

  • En lugar del embedding posicional absoluto tradicional, RoPE (Rotary Position Embedding) se ha consolidado como la opción dominante
  • RoPE rota el ángulo de los vectores query/key según la posición para ofrecer información posicional más flexible y generalizable

Función de activación SwiGLU e introducción de GLU

  • Con la adopción de enfoques GLU como GEGLU/SwiGLU, se logra una capacidad de representación superior con menos parámetros que una FFN tradicional de 2 capas
  • Swish también es computacionalmente más eficiente que GELU

Aplicación de Mixture-of-Experts (MoE)

  • En lugar de una sola FFN, se utilizan múltiples redes de expertos (Experts) y solo algunos expertos se activan en cada generación de token
  • Se incrementa drásticamente el número de parámetros del modelo manteniendo la eficiencia de inferencia (esparsidad) y ampliando la capacidad de entrenamiento

Introducción de Grouped Query Attention (GQA)

  • Frente al Multi-Head Attention tradicional, compartir key/value reduce memoria y cómputo
  • Mejora la eficiencia sin pérdida de rendimiento y tiende a convertirse en una práctica estándar en LLM de gran escala

Uso de Sliding Window Attention

  • En algunas capas, en vez de usar todo el contexto, se calcula atención local con una Sliding Window limitada a los 128 tokens más recientes, minimizando el uso de memoria
  • Permite inferencia rápida sin degradación de rendimiento y soporte para contextos extensos

Adopción de RMSNorm

  • Aplicar RMSNorm en lugar de LayerNorm aumenta la eficiencia computacional
  • En lugar de calcular media/varianza como LayerNorm, usa RMS (raíz media cuadrática), reduciendo la carga de cálculo en GPU

Comparación entre gpt-oss y Qwen3

Diferencias de escala/estructura

  • Qwen3 tiene una estructura más profunda (48 bloques Transformer), mientras que gpt-oss tiene una estructura más ancha (mayor emb dimension y más heads)
  • Los modelos profundos son más flexibles pero más difíciles de entrenar; los anchos favorecen la paralelización en inferencia (según el paper de Gemma 2, en el modelo de 9B el más ancho tiene una ligera ventaja)

Diferencias en la estructura MoE

  • gpt-oss-20b: 32 expertos grandes, con solo 4 activos
  • Qwen3: muchos expertos pequeños, con 8 activos
  • La tendencia reciente apunta a que una configuración con más expertos pequeños es más efectiva, pero gpt-oss mantiene una estructura de pocos expertos grandes (en 20B y 120B solo se ajusta el número de expertos y bloques)

Attention Bias y Sinks

  • gpt-oss usa unidades de bias en la atención (un enfoque poco común desde la época de GPT-2)
    • Sin embargo, investigaciones recientes muestran que su efecto en key-proj es mínimo
  • El attention sink es el concepto de un token especial al que siempre se atiende al inicio de la secuencia, pero en gpt-oss se aplica a cada head como un learned bias logit sin modificar los tokens de entrada

Licencia y alcance de publicación

  • Usa licencia open source Apache 2.0, lo que permite uso comercial y creación de modelos derivados
  • Aun así, no es open source en el sentido estricto (no publica código de entrenamiento ni datasets), sino un modelo open weight

Otros detalles y operación real

Entrenamiento/optimización

  • gpt-oss se entrenó con 2.1M H100-hours de recursos de cómputo
  • Enfocado en inglés y en STEM, código y texto de conocimiento general
  • Aplica técnicas modernas como pretraining + fine-tuning supervisado (Instruction) y etapas de reasoning basadas en RL

Ajuste de Reasoning Effort

  • A través del system prompt se puede configurar el reasoning effort (bajo/medio/alto) para ajustar automáticamente la longitud y precisión de las respuestas
  • Las tareas simples pueden resolverse rápido con baja intensidad, y si se necesita reasoning complejo puede configurarse más alto

Soporte para una sola GPU con cuantización MXFP4

  • Gracias al formato MXFP4, incluso 20B puede ejecutarse en 16 GB de VRAM (se requiere una GPU moderna)
  • En el caso de 120B, con 80 GB de memoria en una H100 puede ejecutarse en una sola GPU, sin procesamiento distribuido y con operación sencilla

Benchmarks y usabilidad real

  • gpt-oss tiene un enfoque de entrenamiento muy centrado en reasoning, por lo que en algunas preguntas de conocimiento general puede mostrar tendencia a la alucinación (hallucination)
  • En términos de usabilidad, se encuentra entre los mejores modelos abiertos disponibles, y se espera que su utilidad práctica aumente al combinarse con tool integration
  • En uso real, todavía hace falta comparar mejor el equilibrio entre precisión y reasoning frente a otros modelos abiertos

Comparación con GPT-5

  • gpt-oss-120b muestra un rendimiento cercano al modelo comercial de OpenAI (GPT-5) según benchmarks
  • Aún está por verse si mantendrá ventaja en entornos reales, pero es una alternativa potente entre los LLM más recientes ofrecidos como open weight
  • Los benchmarks por sí solos no bastan para explicar por completo la competitividad en escenarios reales, pero ofrece una gran oportunidad para comparaciones externas e investigación futura

Resumen

  • La aparición de la serie gpt-oss marca un nuevo referente en el campo de los LLM grandes con open weight, y permite comparar y analizar en detalle cómo se implementan y aplican en la práctica las arquitecturas innovadoras adoptadas por los LLM modernos
  • También permite identificar diferencias y tendencias frente a otros modelos recientes como Qwen3 y GPT-5, lo que resulta útil para aplicaciones reales e investigación

1 comentarios

 
GN⁺ 2025-08-11
Opiniones de Hacker News
  • Confirmé que Qwen3 es mucho mejor en pruebas locales. En la versión de 32B parámetros, sigue el prompt casi a la perfección y produce resultados naturales. En cambio, simplebench gpt-oss (120B) muestra un rendimiento pobre en acertijos lógicos. Creo que esta diferencia viene del método de entrenamiento, las dimensiones del modelo y del uso de pocos expertos grandes vs. muchos expertos pequeños

    • Qwen3 32B es un modelo denso que siempre usa todos los parámetros. GPT OSS 20B es un modelo MoE disperso (Expert of Experts) que solo usa una parte, alrededor de 3.6B a la vez. Por eso es más rápido que un modelo denso de 20B y más inteligente que uno de 3.6B. Una comparación justa sería contra un modelo denso de 8B, y modelos como Qwen Coder 30B A3B también son un buen punto de referencia
    • En mi opinión, esta diferencia tiene mucho más que ver con los datos y el pipeline de entrenamiento que con la arquitectura del modelo. Se dice que gpt-oss usó únicamente datasets sintéticos estilo Phi y se enfocó sobre todo en juegos de benchmark, y la evidencia de eso parece bastante convincente
    • La fórmula de rendimiento esperado para MoE es sqrt(número de heads activos * número total de parámetros). Por ejemplo, sqrt(120*5) ~= 24, así que GPT-OSS 120B en realidad ofrece un rendimiento de nivel 24B con velocidad de modelo mucho más pequeño
    • qwen3 tiende a ser lento. Lo probé personalmente: funciona, pero se siente lento y algo limitado en capacidades
  • Las publicaciones del blog de Sebastian Raschk son una mina de oro. Uso get-oss y modelos qwen3 localmente con Ollama y LM Studio, y para modelos grandes uso APIs comerciales. get-oss da buenos resultados si le pasas mucho contexto en el prompt, y qwen3 simplemente es excelente. Hasta hace 3 años entendía lo suficiente como para implementar redes neuronales, GAN, RNN, LSTM y demás en la práctica, pero los LLM de hoy ya no se sienten tan fáciles de desarrollar por cuenta propia, lo cual me da algo de pena. También estoy viendo el libro de Sebastian Raschk, aunque probablemente no lo termine completo

    • En un campo que cambia a una velocidad increíble, Sebastian Raschk siempre resume la información más reciente de forma concisa, y de verdad me ha ayudado mucho
  • En mi GPU 3090 local corrí qwen3 coder instruct 30b-a3b exl3 q6, e hice que creara una página de ejemplo, levantara un servidor, detectara un servidor ya existente, lo cerrara directamente (incluso pidiendo permisos), luego lo reiniciara y encontrara la IP automáticamente para abrirla en el navegador. Ya no es solo un demo simple, sino ayuda realmente útil incluso para un junior o un intern

  • En mi experiencia, qwen3-coder es muy superior. También instalé gpt-oss:20b, pero cuando le pedí resumir código, qwen3 respondió en segundos y gpt-oss no hizo nada por más de 5 minutos, así que lo detuve. Por eso ahora solo uso qwen3. Si no obtengo la respuesta que quiero, uso un buscador o Perplexity. Tengo una 3080 de 10GB, Ryzen 3600x y 32GB de RAM. Qwen3-coder es lo mejor que he usado hasta ahora

    • Qwen3 coder 480B es tan bueno que está al nivel de Sonnet 4. Gracias a eso, fue la primera vez que sentí de verdad que los modelos chinos podrían superar pronto a los modelos basados en EE. UU. (especialmente en coding)
    • Puede que el problema haya sido que gpt-oss 20B no cabe en 10GB
    • Yo también uso gpt-oss-20b de forma simple, y con prompts cortos (una sola frase) a veces cae en bucles infinitos. Al correrlo con llama.cpp, bajé el valor de la repetition penalty y ese problema desapareció (lo uso unas cuantas veces al día, sobre todo para analizar diff). Aunque también podría ser que yo solo haya tenido suerte
    • Me da curiosidad si lo estás usando de forma agentic (automatizando varias rondas de preguntas y respuestas) o solo como entrada/salida única, tipo copiar y pegar “escríbeme este código”. Quiero saber qué tan cerca están los modelos abiertos más recientes de los modelos comerciales en coding agentic
  • Me parece interesante que los LLM open weight de hoy tengan arquitecturas tan parecidas, y que la innovación esté ocurriendo solo en datos o RL. Antes, en las grandes organizaciones de ML, parecía que lo más importante era ajustar la arquitectura, pero la realidad ahora se ve diferente

    • Creo que a escala LLM el ajuste de hiperparámetros como tal ya no es viable. El costo es demasiado alto, así que solo hacen pruebas básicas con varias arquitecturas, eligen una y luego optimizan con datos y RL
    • Buen punto. Gracias a los LLM, cualquiera puede intentarlo si tiene suficientes recursos. La arquitectura resiste bastante bien los ajustes, y si le metes suficiente cómputo y datos puedes hacer un modelo decente incluso rompiendo las scaling laws (como mostró Llama 3 en su momento)
  • Estoy usando el modelo Qwen3 4B localmente y de verdad me ha funcionado muy bien. Casi no uso modelos en línea, y hasta la búsqueda web está mucho mejor dirigida. No confío ciegamente en él, pero en general está bien. Estoy convencido de que estos modelos open source van a cambiar por completo el panorama de la automatización local del conocimiento

    • Me da curiosidad si Qwen te está sugiriendo mejores parámetros de búsqueda, o si de hecho Qwen hace la búsqueda web por sí mismo
  • En LM Arena, el modelo con mejor rendimiento que no está basado en un Transformer puro es Jamba (una arquitectura híbrida de Transformers y state space models, puesto 96). Tencent hunyuan-turbos también es híbrido y ocupa el puesto 22. Ver el paper de arxiv

  • Los LLM normalmente entrenan con datasets gigantescos una sola vez (un solo epoch). Es un entorno distinto al de Dropout, que asumía entrenamiento repetido muchas veces (cientos de epochs)

    • Esto es bien sabido. Basta con ver la Table 2.2 del paper de GPT-3
  • Me pregunto cuánto más podrían mejorar los modelos publicados por los grandes laboratorios si recibieran entrenamiento adicional. Por ejemplo, si GPT-OSS entrenó durante 2.1 millones de horas, me gustaría saber cuánto mejoraría si eso se duplicara

    • GPT-4.5 quizá en realidad fue planeado como un GPT-5 más grande y pudo haber sido entrenado con más datos. Pero era demasiado caro, así que no se pudo comercializar a gran escala, y también queda la pena de no haber visto una versión con RL aplicada
    • Ya se está viendo que las técnicas avanzadas de entrenamiento basadas en RL usadas en GPT-5 tampoco escalan indefinidamente
  • Al entrar al sitio me aparece el mensaje de error "Tu conexión no es privada". Dice: "No puedes visitar magazine.sebastianraschka.com en este momento porque el sitio web usa HSTS". Estoy en Ubuntu con la versión más reciente de Chrome