31 puntos por haebom 2025-08-06 | 8 comentarios | Compartir por WhatsApp

OpenAI publicó de forma sorpresiva la serie de modelos GPT-OSS (gpt-oss-120b / gpt-oss-20b) bajo licencia Apache 2.0. Es su primer modelo de pesos abiertos desde GPT-2, hace 6 años, y tiene el potencial de cambiar el panorama del mercado tanto en rendimiento como en eficiencia.

🧠 Características clave

  • Modelo 20B: arquitectura Mixture of Experts (MoE)
     • 4 expertos activados de 128 → mantiene el rendimiento mientras reduce el costo de inferencia
     • Incluye FlashAttention, soporte para 128k tokens y YaRN
  • Modelo 20B: puede ejecutarse incluso en entornos con GPU de 16GB (incluido Apple Silicon)

📊 Principales resultados en benchmarks (basados en GPT-OSS-120B)

  • MMLU: 90.0% (similar a o4-mini)
  • Matemáticas AIME: 97.9% (nivel muy alto en matemáticas + herramientas)
  • Codeforces Elo: 2622 (también está entre los mejores en programación)
  • HealthBench: mejor rendimiento que GPT-4o
  • MMMLU (14 idiomas): 81.3% → también destaca en razonamiento multilingüe

💡 Utilidad práctica y ecosistema

  • El modelo 120B puede ejecutarse en una sola GPU H100 de 80GB
  • El modelo 20B corre en tiempo real incluso en entornos de 16GB
  • Compatible de inmediato con HuggingFace, vLLM, Ollama y más

🔐 Seguridad y responsabilidad

  • Refuerzo de la consistencia del razonamiento basado en RL
  • Introducción de Deliberative Alignment
  • No genera salidas de alto riesgo incluso ante intentos de uso malicioso deliberado

Por un tiempo, probablemente se libren de las burlas de “ClosedAI”. Lo probé un momento y también maneja muy bien el coreano.

https://huggingface.co/openai/gpt-oss-120b

8 comentarios

 
yeorinhieut 2025-08-06

Parece que incluso el modelo de 120b tiene una puntuación de 0.168 en simpleqa.

 
jinucho 2025-08-06

Intenté servirlo con vllm, pero como está basado en Flash Attention3, parece que solo soporta Hopper :(

 
yeorinhieut 2025-08-06

Yo también por eso uso ollama…

 
jinucho 2025-08-06

A100 ya quedó totalmente obsoleta...

 
xguru 2025-08-06

Para los comentarios relacionados en Hacker News, consulta la publicación OpenAI publica un modelo de lenguaje de gran escala con pesos abiertos.
Puedes ver varias evaluaciones sobre su rendimiento.

 
argo9 2025-08-06

Cuando quiero saber si mi computadora está lenta... se me ocurre que podría probarlo con el mismo prompt, midiendo directamente los segundos. ^^; También me gustaría dejar abierta aunque sea una Google Spreadsheet sencilla para llevar un registro (por la pura diversión de registrar).

 
fanotify 2025-08-06

Con la cuantización MXFP4, se dice que también puede ejecutarse en Ollama incluso en sistemas con 16 GB de memoria (VRAM) (gpt-oss:20b): https://ollama.com/blog/gpt-oss

 
fanotify 2025-08-06

Quienes quieran ejecutar modelos más grandes pueden usar ollama turbo, que se lanzó esta vez por $20 al mes: https://ollama.com/turbo