7 puntos por GN⁺ 2025-08-06 | Aún no hay comentarios. | Compartir por WhatsApp
  • OpenAI publicó por primera vez un modelo de lenguaje de pesos abiertos de gran escala (gpt-oss)
  • Se destacan dos modelos, gpt-oss-120b y gpt-oss-20b, con rendimiento fuerte y soporte para varios dispositivos
  • Con la licencia Apache 2.0, es posible el uso comercial, la personalización y la distribución libre
  • Se implementaron entrenamiento de seguridad, revisión de expertos externos y un proceso de pruebas de seguridad integral
  • Es posible descargar y usar los modelos directamente desde Hugging Face, GitHub y otros sitios, y también se proporcionan recursos para ajuste fino, despliegue y personalización junto con Playground

Modelos abiertos de OpenAI

  • OpenAI lanzó gpt-oss, un modelo de inferencia de pesos abiertos de gran escala que puede personalizarse para cualquier caso de uso y ejecutarse en cualquier lugar
  • Los archivos del modelo se pueden descargar directamente desde Hugging Face y GitHub, y también es posible probar una demo mediante el Playground web
  • Al estar bajo licencia Apache 2.0, permite uso comercial, personalización y despliegue sin preocupaciones de copyleft ni de infracción de patentes
  • gpt-oss-120b: modelo grande para centros de datos, computadoras de escritorio y laptops de alto rendimiento
  • gpt-oss-20b: modelo mediano que funciona en la mayoría de escritorios y laptops

Características principales

  • Optimización para tareas de agente

    • Su punto fuerte es el uso de herramientas y el cumplimiento de instrucciones, y es adecuado para casos de uso de agente como búsqueda web y ejecución de código Python
  • Personalización y ajuste fino

    • Se puede ajustar el hiperparámetro reasoning_effort (esfuerzo de razonamiento)
    • Soporta personalización avanzada mediante ajuste fino de todos los parámetros
  • Exposición de Chain-of-Thought

    • Se puede ver todo el proceso de razonamiento (flujo de pensamiento) del modelo, lo que facilita la depuración y la evaluación de confiabilidad
  • Playground disponible

    • Se ofrece un Playground para que cualquier desarrollador o investigador pueda probar el rendimiento del modelo en el navegador

Rendimiento del modelo

  • gpt-oss-120b y gpt-oss-20b se comparan directamente con los modelos comerciales de OpenAI (OpenAI o3, o4-mini) en varios benchmarks clave
  • Se publican los resultados de razonamiento, conocimiento, matemáticas competitivas y otras áreas de cada modelo de forma específica
  • En algunos ítems están cerca de los modelos comerciales de OpenAI o incluso muestran resultados sobresalientes en pruebas concretas

Detalle de rendimiento en benchmarks principales

  • Razonamiento y conocimiento

    • MMLU (Massive Multitask Language Understanding)
      • gpt-oss-120b: 90
      • gpt-oss-20b: 85.3
      • OpenAI o3: 93.4
      • OpenAI o4-mini: 93
      • → Aunque queda algo por debajo de los modelos comerciales de gran escala, muestra un rendimiento de razonamiento integral muy sólido para un modelo abierto
    • GPQA Diamond
      • gpt-oss-120b: 80.9
      • gpt-oss-20b: 74.2
      • OpenAI o3: 77
      • OpenAI o4-mini: 81.4
      • → A pesar de ser un modelo abierto, logra un desempeño en preguntas y respuestas de base de conocimiento avanzada casi similar al de los modelos comerciales
    • Humanity’s Last Exam
      • gpt-oss-120b: 19
      • gpt-oss-20b: 17.3
      • OpenAI o3: 24.9
      • OpenAI o4-mini: 17.7
      • → En esta evaluación de alta dificultad queda por debajo de los modelos comerciales, pero gpt-oss-20b y o4-mini obtienen resultados muy parecidos
  • Competencia en matemáticas (AIME)

    • AIME 2024
      • gpt-oss-120b: 96.6
      • gpt-oss-20b: 96
      • OpenAI o3: 91.6
      • OpenAI o4-mini: 93.4
      • Bajo la versión 2024, logra puntajes más altos que los modelos comerciales
    • AIME 2025
      • gpt-oss-120b: 97.9
      • gpt-oss-20b: 98.7
      • OpenAI o3: 88.9
      • OpenAI o4-mini: 92.7
      • → También se observan cifras que superan a los modelos comerciales de OpenAI en matemáticas
  • Síntesis interpretativa

    • La serie gpt-oss demuestra un rendimiento sólido especialmente en matemáticas, lógica y conocimiento
    • La brecha con los modelos comerciales no es grande, y existe alta viabilidad de uso en servicios reales o aplicaciones de ingeniería
    • Como modelos abiertos de gran escala, son una opción competitiva para investigación y desarrollo, agentes y entornos de personalización

Seguridad y pruebas

  • Todos los modelos pasan por entrenamiento y evaluación de seguridad rigurosos
  • Según el marco de preparación de OpenAI, también se prueba la resistencia al ajuste fino malicioso
  • Se trabajó con expertos externos en seguridad para establecer estándares de seguridad para modelos abiertos

Aún no hay comentarios.

Aún no hay comentarios.