OpenAI publica un modelo de lenguaje de pesos abiertos de gran escala

(openai.com)

7 puntos por GN⁺ 2025-08-06 | Aún no hay comentarios. | Compartir por WhatsApp

OpenAI publicó por primera vez un modelo de lenguaje de pesos abiertos de gran escala (gpt-oss)
Se destacan dos modelos, gpt-oss-120b y gpt-oss-20b, con rendimiento fuerte y soporte para varios dispositivos
Con la licencia Apache 2.0, es posible el uso comercial, la personalización y la distribución libre
Se implementaron entrenamiento de seguridad, revisión de expertos externos y un proceso de pruebas de seguridad integral
Es posible descargar y usar los modelos directamente desde Hugging Face, GitHub y otros sitios, y también se proporcionan recursos para ajuste fino, despliegue y personalización junto con Playground

Modelos abiertos de OpenAI

OpenAI lanzó gpt-oss, un modelo de inferencia de pesos abiertos de gran escala que puede personalizarse para cualquier caso de uso y ejecutarse en cualquier lugar
Los archivos del modelo se pueden descargar directamente desde Hugging Face y GitHub, y también es posible probar una demo mediante el Playground web
Al estar bajo licencia Apache 2.0, permite uso comercial, personalización y despliegue sin preocupaciones de copyleft ni de infracción de patentes

gpt-oss-120b: modelo grande para centros de datos, computadoras de escritorio y laptops de alto rendimiento
gpt-oss-20b: modelo mediano que funciona en la mayoría de escritorios y laptops

Características principales

Optimización para tareas de agente
- Su punto fuerte es el uso de herramientas y el cumplimiento de instrucciones, y es adecuado para casos de uso de agente como búsqueda web y ejecución de código Python
Personalización y ajuste fino
- Se puede ajustar el hiperparámetro reasoning_effort (esfuerzo de razonamiento)
- Soporta personalización avanzada mediante ajuste fino de todos los parámetros
Exposición de Chain-of-Thought
- Se puede ver todo el proceso de razonamiento (flujo de pensamiento) del modelo, lo que facilita la depuración y la evaluación de confiabilidad
Playground disponible
- Se ofrece un Playground para que cualquier desarrollador o investigador pueda probar el rendimiento del modelo en el navegador

Rendimiento del modelo

gpt-oss-120b y gpt-oss-20b se comparan directamente con los modelos comerciales de OpenAI (OpenAI o3, o4-mini) en varios benchmarks clave
Se publican los resultados de razonamiento, conocimiento, matemáticas competitivas y otras áreas de cada modelo de forma específica
En algunos ítems están cerca de los modelos comerciales de OpenAI o incluso muestran resultados sobresalientes en pruebas concretas

Detalle de rendimiento en benchmarks principales

Razonamiento y conocimiento
- MMLU (Massive Multitask Language Understanding)
  - gpt-oss-120b: 90
  - gpt-oss-20b: 85.3
  - OpenAI o3: 93.4
  - OpenAI o4-mini: 93
  - → Aunque queda algo por debajo de los modelos comerciales de gran escala, muestra un rendimiento de razonamiento integral muy sólido para un modelo abierto
- GPQA Diamond
  - gpt-oss-120b: 80.9
  - gpt-oss-20b: 74.2
  - OpenAI o3: 77
  - OpenAI o4-mini: 81.4
  - → A pesar de ser un modelo abierto, logra un desempeño en preguntas y respuestas de base de conocimiento avanzada casi similar al de los modelos comerciales
- Humanity’s Last Exam
  - gpt-oss-120b: 19
  - gpt-oss-20b: 17.3
  - OpenAI o3: 24.9
  - OpenAI o4-mini: 17.7
  - → En esta evaluación de alta dificultad queda por debajo de los modelos comerciales, pero gpt-oss-20b y o4-mini obtienen resultados muy parecidos
Competencia en matemáticas (AIME)
- AIME 2024
  - gpt-oss-120b: 96.6
  - gpt-oss-20b: 96
  - OpenAI o3: 91.6
  - OpenAI o4-mini: 93.4
  - → Bajo la versión 2024, logra puntajes más altos que los modelos comerciales
- AIME 2025
  - gpt-oss-120b: 97.9
  - gpt-oss-20b: 98.7
  - OpenAI o3: 88.9
  - OpenAI o4-mini: 92.7
  - → También se observan cifras que superan a los modelos comerciales de OpenAI en matemáticas
Síntesis interpretativa
- La serie gpt-oss demuestra un rendimiento sólido especialmente en matemáticas, lógica y conocimiento
- La brecha con los modelos comerciales no es grande, y existe alta viabilidad de uso en servicios reales o aplicaciones de ingeniería
- Como modelos abiertos de gran escala, son una opción competitiva para investigación y desarrollo, agentes y entornos de personalización

Seguridad y pruebas

Todos los modelos pasan por entrenamiento y evaluación de seguridad rigurosos
Según el marco de preparación de OpenAI, también se prueba la resistencia al ajuste fino malicioso
Se trabajó con expertos externos en seguridad para establecer estándares de seguridad para modelos abiertos

Los modelos se pueden descargar y usar en Hugging Face y GitHub

OpenAI publica un modelo de lenguaje de pesos abiertos de gran escala

Modelos abiertos de OpenAI

Características principales

Optimización para tareas de agente

Personalización y ajuste fino

Exposición de Chain-of-Thought

Playground disponible

Rendimiento del modelo

Detalle de rendimiento en benchmarks principales

Razonamiento y conocimiento

Competencia en matemáticas (AIME)

Síntesis interpretativa

Seguridad y pruebas

Lecturas relacionadas

Aún no hay comentarios.