- OpenAI publicó por primera vez un modelo de lenguaje de pesos abiertos de gran escala (gpt-oss)
- Se destacan dos modelos, gpt-oss-120b y gpt-oss-20b, con rendimiento fuerte y soporte para varios dispositivos
- Con la licencia Apache 2.0, es posible el uso comercial, la personalización y la distribución libre
- Se implementaron entrenamiento de seguridad, revisión de expertos externos y un proceso de pruebas de seguridad integral
- Es posible descargar y usar los modelos directamente desde Hugging Face, GitHub y otros sitios, y también se proporcionan recursos para ajuste fino, despliegue y personalización junto con Playground
Modelos abiertos de OpenAI
- OpenAI lanzó gpt-oss, un modelo de inferencia de pesos abiertos de gran escala que puede personalizarse para cualquier caso de uso y ejecutarse en cualquier lugar
- Los archivos del modelo se pueden descargar directamente desde Hugging Face y GitHub, y también es posible probar una demo mediante el Playground web
- Al estar bajo licencia Apache 2.0, permite uso comercial, personalización y despliegue sin preocupaciones de copyleft ni de infracción de patentes
- gpt-oss-120b: modelo grande para centros de datos, computadoras de escritorio y laptops de alto rendimiento
- gpt-oss-20b: modelo mediano que funciona en la mayoría de escritorios y laptops
Características principales
-
Optimización para tareas de agente
- Su punto fuerte es el uso de herramientas y el cumplimiento de instrucciones, y es adecuado para casos de uso de agente como búsqueda web y ejecución de código Python
-
Personalización y ajuste fino
- Se puede ajustar el hiperparámetro
reasoning_effort (esfuerzo de razonamiento)
- Soporta personalización avanzada mediante ajuste fino de todos los parámetros
-
Exposición de Chain-of-Thought
- Se puede ver todo el proceso de razonamiento (flujo de pensamiento) del modelo, lo que facilita la depuración y la evaluación de confiabilidad
-
Playground disponible
- Se ofrece un Playground para que cualquier desarrollador o investigador pueda probar el rendimiento del modelo en el navegador
Rendimiento del modelo
- gpt-oss-120b y gpt-oss-20b se comparan directamente con los modelos comerciales de OpenAI (OpenAI o3, o4-mini) en varios benchmarks clave
- Se publican los resultados de razonamiento, conocimiento, matemáticas competitivas y otras áreas de cada modelo de forma específica
- En algunos ítems están cerca de los modelos comerciales de OpenAI o incluso muestran resultados sobresalientes en pruebas concretas
Detalle de rendimiento en benchmarks principales
-
Razonamiento y conocimiento
- MMLU (Massive Multitask Language Understanding)
- gpt-oss-120b: 90
- gpt-oss-20b: 85.3
- OpenAI o3: 93.4
- OpenAI o4-mini: 93
- → Aunque queda algo por debajo de los modelos comerciales de gran escala, muestra un rendimiento de razonamiento integral muy sólido para un modelo abierto
- GPQA Diamond
- gpt-oss-120b: 80.9
- gpt-oss-20b: 74.2
- OpenAI o3: 77
- OpenAI o4-mini: 81.4
- → A pesar de ser un modelo abierto, logra un desempeño en preguntas y respuestas de base de conocimiento avanzada casi similar al de los modelos comerciales
- Humanity’s Last Exam
- gpt-oss-120b: 19
- gpt-oss-20b: 17.3
- OpenAI o3: 24.9
- OpenAI o4-mini: 17.7
- → En esta evaluación de alta dificultad queda por debajo de los modelos comerciales, pero gpt-oss-20b y o4-mini obtienen resultados muy parecidos
-
Competencia en matemáticas (AIME)
- AIME 2024
- gpt-oss-120b: 96.6
- gpt-oss-20b: 96
- OpenAI o3: 91.6
- OpenAI o4-mini: 93.4
- → Bajo la versión 2024, logra puntajes más altos que los modelos comerciales
- AIME 2025
- gpt-oss-120b: 97.9
- gpt-oss-20b: 98.7
- OpenAI o3: 88.9
- OpenAI o4-mini: 92.7
- → También se observan cifras que superan a los modelos comerciales de OpenAI en matemáticas
-
Síntesis interpretativa
- La serie gpt-oss demuestra un rendimiento sólido especialmente en matemáticas, lógica y conocimiento
- La brecha con los modelos comerciales no es grande, y existe alta viabilidad de uso en servicios reales o aplicaciones de ingeniería
- Como modelos abiertos de gran escala, son una opción competitiva para investigación y desarrollo, agentes y entornos de personalización
Seguridad y pruebas
- Todos los modelos pasan por entrenamiento y evaluación de seguridad rigurosos
- Según el marco de preparación de OpenAI, también se prueba la resistencia al ajuste fino malicioso
- Se trabajó con expertos externos en seguridad para establecer estándares de seguridad para modelos abiertos
Aún no hay comentarios.