- OpenAI publicó por primera vez un modelo de lenguaje de pesos abiertos de gran escala (gpt-oss)
- Se destacan dos modelos, gpt-oss-120b y gpt-oss-20b, con rendimiento fuerte y soporte para varios dispositivos
- Con la licencia Apache 2.0, es posible el uso comercial, la personalización y la distribución libre
- Se implementaron entrenamiento de seguridad, revisión de expertos externos y un proceso de pruebas de seguridad integral
- Es posible descargar y usar los modelos directamente desde Hugging Face, GitHub y otros sitios, y también se proporcionan recursos para ajuste fino, despliegue y personalización junto con Playground
Modelos abiertos de OpenAI
- OpenAI lanzó gpt-oss, un modelo de inferencia de pesos abiertos de gran escala que puede personalizarse para cualquier caso de uso y ejecutarse en cualquier lugar
- Los archivos del modelo se pueden descargar directamente desde Hugging Face y GitHub, y también es posible probar una demo mediante el Playground web
- Al estar bajo licencia Apache 2.0, permite uso comercial, personalización y despliegue sin preocupaciones de copyleft ni de infracción de patentes
- gpt-oss-120b: modelo grande para centros de datos, computadoras de escritorio y laptops de alto rendimiento
- gpt-oss-20b: modelo mediano que funciona en la mayoría de escritorios y laptops
Características principales
-
Optimización para tareas de agente
- Su punto fuerte es el uso de herramientas y el cumplimiento de instrucciones, y es adecuado para casos de uso de agente como búsqueda web y ejecución de código Python
-
Personalización y ajuste fino
- Se puede ajustar el hiperparámetro
reasoning_effort(esfuerzo de razonamiento) - Soporta personalización avanzada mediante ajuste fino de todos los parámetros
- Se puede ajustar el hiperparámetro
-
Exposición de Chain-of-Thought
- Se puede ver todo el proceso de razonamiento (flujo de pensamiento) del modelo, lo que facilita la depuración y la evaluación de confiabilidad
-
Playground disponible
- Se ofrece un Playground para que cualquier desarrollador o investigador pueda probar el rendimiento del modelo en el navegador
Rendimiento del modelo
- gpt-oss-120b y gpt-oss-20b se comparan directamente con los modelos comerciales de OpenAI (OpenAI o3, o4-mini) en varios benchmarks clave
- Se publican los resultados de razonamiento, conocimiento, matemáticas competitivas y otras áreas de cada modelo de forma específica
- En algunos ítems están cerca de los modelos comerciales de OpenAI o incluso muestran resultados sobresalientes en pruebas concretas
Detalle de rendimiento en benchmarks principales
-
Razonamiento y conocimiento
- MMLU (Massive Multitask Language Understanding)
- gpt-oss-120b: 90
- gpt-oss-20b: 85.3
- OpenAI o3: 93.4
- OpenAI o4-mini: 93
- → Aunque queda algo por debajo de los modelos comerciales de gran escala, muestra un rendimiento de razonamiento integral muy sólido para un modelo abierto
- GPQA Diamond
- gpt-oss-120b: 80.9
- gpt-oss-20b: 74.2
- OpenAI o3: 77
- OpenAI o4-mini: 81.4
- → A pesar de ser un modelo abierto, logra un desempeño en preguntas y respuestas de base de conocimiento avanzada casi similar al de los modelos comerciales
- Humanity’s Last Exam
- gpt-oss-120b: 19
- gpt-oss-20b: 17.3
- OpenAI o3: 24.9
- OpenAI o4-mini: 17.7
- → En esta evaluación de alta dificultad queda por debajo de los modelos comerciales, pero gpt-oss-20b y o4-mini obtienen resultados muy parecidos
- MMLU (Massive Multitask Language Understanding)
-
Competencia en matemáticas (AIME)
- AIME 2024
- gpt-oss-120b: 96.6
- gpt-oss-20b: 96
- OpenAI o3: 91.6
- OpenAI o4-mini: 93.4
- → Bajo la versión 2024, logra puntajes más altos que los modelos comerciales
- AIME 2025
- gpt-oss-120b: 97.9
- gpt-oss-20b: 98.7
- OpenAI o3: 88.9
- OpenAI o4-mini: 92.7
- → También se observan cifras que superan a los modelos comerciales de OpenAI en matemáticas
- AIME 2024
-
Síntesis interpretativa
- La serie gpt-oss demuestra un rendimiento sólido especialmente en matemáticas, lógica y conocimiento
- La brecha con los modelos comerciales no es grande, y existe alta viabilidad de uso en servicios reales o aplicaciones de ingeniería
- Como modelos abiertos de gran escala, son una opción competitiva para investigación y desarrollo, agentes y entornos de personalización
Seguridad y pruebas
- Todos los modelos pasan por entrenamiento y evaluación de seguridad rigurosos
- Según el marco de preparación de OpenAI, también se prueba la resistencia al ajuste fino malicioso
- Se trabajó con expertos externos en seguridad para establecer estándares de seguridad para modelos abiertos
- Los modelos se pueden descargar y usar en Hugging Face y GitHub
1 comentarios
Opinión en Hacker News
Me da la impresión de que no acierta con lo esencial. gpt-oss:20b es un modelo de entre los 10 principales según MMLU, justo detrás de Gemini-2.5-Pro. Lo ejecuté yo mismo en un MacBook Air M3 de año pasado. Estoy probando distintos modelos locales en una laptop y en un Pixel 9 Pro, y pensé que esto llegaría pronto, pero hoy ya está conseguido. Ahora es posible correr un modelo de vanguardia en una laptop con un costo cercano al de la electricidad (casi gratis). Ya no se necesita una suscripción mensual de US$200 ni el "agua del lago". Es realmente sorprendente.
Probé el modelo de 20B directamente, y ni siquiera logré resolver el problema básico de cambiar solo la etiqueta. Está lejos de SOTA y le va peor que algunos modelos locales como QwQ-32b.
Sigo pensando quién es el grupo que más usaría IA local. ¿Aquellos con hardware que quieren evitar modelos pagos? ¿O desarrolladores que por costo optan por codificación gratuita? Personalmente, los modelos locales aún no extraen bien datos de imágenes y alucinan bastante (en el caso de Qwen 2.5 VI). Ojalá mejoren la calidad de los modelos locales/pequeños y el rendimiento de los dispositivos. Para ser honesto, los uso con la sensación de “si se puede, lo hago”. Me intriga qué sentido tiene hacer esto en serio, montando varios Mac Studios o comprando incluso una buena GPU. Herramientas de cómputo distribuido como exo tienen una idea buena, pero me pregunto cuántos casos reales lo requieren de verdad.
Acepto la paradoja de Jevons: cuando los recursos se abaratan, se usan más. Siento que la adopción explotará hasta que un agente de nevera simule autoconciencia y termine secando el "lago".
Me intriga cuánto se conoce de los modelos open-weight recientes. Después de trastearlos unas horas, estaba bastante lejos de Qwen3-30B-A3B. Especialmente les falta conocimiento del mundo de forma marcada.
En realidad, "usar el agua del lago" no es inferencia, sino entrenamiento.
Lo comparto para quienes estén interesados en la model card enlace PDF Compara la arquitectura presentada con modelos open-weight líderes como Deepseek, Qwen, GLM y Kimi. Técnicamente, da una sensación de "ah, ya fue".
Sospecho que la fuente secreta aquí es, probablemente, distillation. Ya está demostrado en investigación que para aprovechar mejor modelos pequeños, usar un dataset sintético de alta calidad generado con salidas de prompt de modelos SOTA como o3 para preentrenamiento (en lugar de datos de internet) puede maximizar su rendimiento. Es mucho más eficiente que postprocesar RL en modelos chicos (que tienen un baseline bajo, por eso RL se vuelve ineficiente).
También se puede ver que OpenAI tiene avances técnicos reales fuera de la estructura de atención. En la arquitectura parece que quieren hacerte creer que "no hay truco oculto, o que no hiciste bien pre/post training". El modelo tiene una esparsidad bastante alta: 32:1.
Veo el release de MXFP4 como un tipo de regalo. Viene de su gran optimización de costos, así que es una ventaja para el mundo open source. La quant de 1.58 bits de Unsloth también es impresionante, pero frente a full quant la pérdida es clara, y en la mayoría de usos de LLM prima la precisión. Casi no hay empresas que ejecuten modelos frontier en producción con quant reducido. Sería un intento muy interesante si OpenAI lo aplica en producción.
Un análisis similar también es posible en el repo de github
También se aplica attention sink (atraer la atención a tokens especiales). Pero en vez de usar un token aparte, se implementa como logits de entrenamiento extra para el softmax de atención.
Resumen de primera impresión, lo dejé después de varias horas link detallado TLDR: OpenAI parece haber recuperado el título de mejor modelo open-weight de los laboratorios de IA chinos. Estoy esperando a ver cómo saldrán los benchmarks independientes. El modelo de 20B corre en un MacBook con menos de 15GB de RAM.
Armé un dashboard en Streamlit con indicadores MACD, RSI y MA(200). qwen3-coder-30b 4bit mlx procesa bien datos hasta recientes y genera un dashboard que funciona perfecto. gpt-oss-20b mxfp4 venía sin
datetime import, y aunque lo corregí, la fecha de inicio se quedó en agosto de 2020 y no había datos. Tras ajustar la fecha, igualmente falla en la función de actualización.En el uso de modelos en MacBook la ventana de contexto quedó demasiado corta y la practicidad cae. Me intriga cómo resolvieron ese problema.
Tengo curiosidad personal de qué tan bien funciona el tool calling. No me funcionó bien incluso después de correrlo durante horas. Igual parece un modelo con potencial.
Si el modelo de 20B usa menos de 15GB de RAM, yo también planeo probarlo pronto. Me interesa el TPS y la información del procesador.
Ya vivimos la era de correr un modelo de nivel o3 en un Mac Mini de 24GB. Hasta hace poco, hacer eso con modelos actuales en local o móvil parecía una misión para dentro de cinco años, pero ahora parece posible en la siguiente generación de teléfono.
Aun con restricciones severas de hardware, modelos como Qwen muestran buen rendimiento. Estoy esperando resultados de benchmark para ver cómo se comparan los nuevos modelos open source.
Recuerdo la controversia de seguridad cuando se lanzó Llama. Ahora se puede ejecutar un modelo frontier de 120B parámetros en un MacBook de 96GB (V)RAM. Me hace ilusión compararlo, con quant MLX, contra GLM-4.5-air.
Sinceramente tenía muchas expectativas en este modelo, pero en la evaluación de localllama el modelo de 120B no lo superó en coding a qwen 3 coder, glm45 air ni grok 3. debate en reddit
Al correr modelos medianos (cuantizados) en un Mac Mini, me pregunto si 5 tokens/seg es rápido o realmente usable.
Me intriga cuál es hoy la forma más fácil de lograr que los modelos locales hagan también web browsing.
A largo plazo, creo que los modelos abiertos van a ganar. Anthropic también investiga con modelos OSS, y China repite rápidamente iteraciones de modelos abiertos. En el bloque de EE.UU. también se prevé abrir como open-weight modelos N-1, de una a tres generaciones atrás. Abrir al OSS un modelo de generación reciente sale demasiado caro. Sin apoyo estatal o innovación energética como la de Stargate, hay un tope. Como el valor de los modelos N-1 cae muy rápido, distribuirlos como OSS para absorber casos de uso especializados tiene valor a largo plazo. Hay riesgo de pérdida de cuota, pero si se concentra investigación abierta, hay margen para acelerar mucho el desarrollo de la siguiente generación. Habrá una cantidad enorme de modelos OSS pequeños. Con releases de OSS como eje, surgirán en local muchos modelos especializados que corran bien en dispositivos chicos. En un futuro centrado en agentes verán una avalancha de modelos distilados y especializados por dominio. Todos estamos yendo hacia AGI/SGI, y en ese proceso los modelos son una etapa intermedia para capturar cuota de mercado y aprovechar datos. Si se alcanza AGI/SGI, su valor real está en innovación en ciencia, ingeniería y todos los campos. La investigación de Anthropic usa modelos OSS como Qwen y Llama.
Anthropic no necesita hacer experimentos solo con modelos abiertos. Basta con dejar los resultados en OSS para que quienes sigan investigando puedan reproducirlos.
La idea de que "los modelos abiertos terminan ganando" tiene supuestos. Ya de entrada es difícil definir qué es ganar. Si no es así, podría pasar que
Parece que la industria se mueve a conectar herramientas, bases de datos y procesos sobre modelos fundacionales sólidos. En ese sentido, creo que los modelos abiertos sí pueden capturar mercado. Pero no me queda claro qué valor práctico aportará entrenar y gestionar por separado tantos modelos especializados.
Llegar a AGI/SGI no será un evento único de "llegamos". El rendimiento mejora poco a poco. Para que haya utilidad real, el costo de inferencia debe ser suficientemente bajo. Si el objetivo es rentabilidad o innovación, me pregunto qué vía conviene. Casos como Isomorphic Labs ya existen y allí ya se concentra talento.
Si los modelos abiertos realmente son los ganadores a largo plazo, desde la visión de un frontier lab queda abierta la pregunta de cómo, qué tan rápido y cuánto secreto incluir al publicar como OSS de forma razonable. Las motivaciones de operación, ejecución e inversión son distintas, y chocan con las de países o la humanidad en general.
En Python, la inferencia de modelos usa harmony[1] escrito en Rust, la tokenización usa tiktoken[2], y Codex[3] también está en Rust. OpenAI está adoptando Rust cada vez más en el pipeline de inferencia. harmony, tiktoken, codex
Para alguien que trabaja sobre todo con Rust, esta tendencia me encanta.
Que Python se reduzca en el stack es positivo.
¿Significa esto que en unos días se publicará el mejor modelo? Desde lo estratégico, publicar esto suele ser señal de que viene una presentación más innovadora.
Incluso sin anuncio directo, es una estrategia inteligente. La presión de modelos open-weight de alto rendimiento como Qwen es fuerte. Si no lo haces, puedes quedarte atrás en toda el área. También hay oportunidades futuras en licencia, soporte técnico, agentes, reconocimiento de marca y cuota de mercado. Si se usan bien estos modelos, resulta más fácil volver a OpenAI para modelos más grandes.
Pronóstico de anuncio para el jueves apuesta sobre el día de anuncio de GPT-5
GPT-5 anunciado este jueves
Sin anuncio, el valor del producto de pago existente también baja. Aun así, no creo que el modelo comercial haya sufrido aún por una apertura tardía de modelos abiertos.
Hace ya una semana había varias señales y ya estaba convencido de que GPT-5 era inminente.
Ver un modelo de 20B cercano al rendimiento de o3 por sí solo ya es revolucionario. Hace un año, se creía imposible que un modelo tan chico tuviera esa inteligencia. Lo que más me emociona, en lo personal, es destilar un modelo que se entrenó con cien mil millones de parámetros y transferir esa "mágica" a uno de miles de millones con mínima pérdida. Si imaginaras un modelo de 10B con inteligencia tipo Claude 4 Opus corriendo localmente a 2,000 tokens por segundo, la forma de hacer software cambiaría por completo.
De hecho, no es 20B; al ser MoE, los parámetros activos son 3.6B. El rendimiento tampoco es realmente nivel o3. Como las métricas siempre tienen distancia con la realidad, hay que probarlo en la práctica para validar la calidad.
10B x 2,000 t/s requieren 20,000 GB/s de ancho de banda de memoria. El hardware de Apple se queda en unos 1,000 GB/s.
Cambiando un poco, creo que Ollama está increíble. Encontrar modelos 2 segundos, descargar en 1 minuto y usar al toque. ¡Kudos al equipo!
De hecho, Ollama fue predesarrollado con apoyo de OpenAI. Ver blog oficial de Ollama
LM Studio también es igual de práctico. La clave real es que en llama.cpp y el despliegue casi todo lo hace HuggingFace.
He visto noticias de que Ollama pasaría a ser cerrado. discusión de reddit relacionada
Con un proxy delgado y Ollama, logré integrar localmente gpt-oss:20b con claude code. Es divertido, pero es demasiado lento por el prefill para usarlo de verdad. Cada uso de herramientas toma 2~3 minutos, 10~20 veces serían 30~60 minutos. En un
server.pyde ~1,000 líneas, la definición de herramientas + contexto de Claude ronda 30k tokens, y al leer archivos de entrada sube a 50k. Queda clara la posibilidad de optimizar. No sé si Ollama soporta kv-cache entre llamadas a/v1/completions; de hacerlo, mejoraría mucho la velocidad.