El nuevo modelo de código abierto de OpenAI es, en la práctica, un Phi-5

(seangoedecke.com)

5 puntos por GN⁺ 2025-08-08 | Aún no hay comentarios. | Compartir por WhatsApp

OpenAI presentó sus modelos de lenguaje de gran escala de código abierto gpt-oss-120b y gpt-oss-20b; aunque destacan en algunos benchmarks, tienen límites en el uso real.
Estos modelos cuentan con conocimiento general, pero se critica que les falte información en áreas específicas como la cultura popular.
Al igual que la serie Phi de Microsoft, el entrenamiento centrado en datos sintéticos mejora el rendimiento en benchmarks, pero tiende a reducir la utilidad práctica.
Entrenar con datos sintéticos también tiene la ventaja de elevar la seguridad y reducir el riesgo de uso indebido que puede surgir al publicar un modelo de código abierto.
Parece que OpenAI eligió un enfoque al estilo Phi para mantener ventaja en benchmarks frente a modelos de código abierto chinos sin renunciar a la seguridad.

Lanzamiento del primer LLM de código abierto de OpenAI

OpenAI lanzó sus primeros modelos de lenguaje de gran escala de código abierto, gpt-oss-120b y gpt-oss-20b, y ya están disponibles para chatear directamente en la web.
Aunque muestran un buen desempeño en algunos benchmarks, su rendimiento cae en pruebas específicas como SimpleQA.
Se reconoce que tienen abundante conocimiento general en áreas como la ciencia, pero les falta conocimiento en áreas específicas como la cultura popular.
Se prevé que su utilidad práctica se clarificará en alrededor de seis meses, y es probable que el desempeño en situaciones reales sea menor que en los benchmarks.

La serie Phi impulsada por Sebastien Bubeck en Microsoft en 2024 fue un modelo entrenado exclusivamente con datos sintéticos.
Los datos sintéticos son texto basado en material didáctico generado por otros modelos de lenguaje o filtrado por personas; esto facilita controlar la calidad, pero encarece la generación de datos.
Este enfoque puede mejorar el rendimiento en benchmarks, pero suele ofrecer resultados inferiores en entornos reales.
Los datos sintéticos permiten generar contenidos alineados a los tipos de problemas de los benchmarks con facilidad, favoreciendo un entrenamiento tipo examen, aunque reduce la versatilidad.

A fines de 2024, Bubeck dejó Microsoft y se incorporó a OpenAI.
Los detalles de los datos de preentrenamiento de los modelos gpt-oss no han sido revelados, pero es muy probable que se hayan usado datos fuertemente filtrados o sintéticos.
Este enfoque puede darles características similares a las de Phi-5 y Phi-5-mini.

Los modelos de código abierto pueden recibir fine-tuning sin límite tras su publicación, lo que puede generar problemas de seguridad.
En particular, uno de los principales usos no oficiales de modelos de lenguaje pequeños es el juego de roles adultos, por lo que gestionar la seguridad es crucial.
Entrenar con datos sintéticos o material de referencia puede evitar contenido riesgoso y aumentar la seguridad.
Parece que OpenAI optó por una estrategia para mantener ventaja en benchmarks frente a modelos de código abierto chinos mientras conservaba la seguridad.

Se estima que los modelos gpt-oss priorizan la puntuación en benchmarks y la seguridad mediante un diseño centrado en datos sintéticos, por encima del rendimiento práctico.
Como resultado, estos modelos son, de facto, de la misma naturaleza que Phi-5 y Phi-5-mini