La brecha entre los LLM de pesos abiertos y los LLM cerrados
(blog.doubleword.ai)- En el Artificial Analysis Intelligence Index, los LLM de pesos abiertos muestran una tendencia en la que el tiempo para alcanzar el rendimiento pasado de los LLM cerrados se ha ido reduciendo de forma constante desde el verano de 2024
- Si se traza una línea de tendencia sobre esta métrica única, la brecha llega a 0 meses el 3 de diciembre de 2026, lo que lleva a la predicción de que los modelos abiertos alcanzarán, según esa métrica, a los modelos cerrados de vanguardia
- Si el mismo análisis se amplía al conjunto completo de 18 benchmarks, la brecha promedio se mantiene casi plana y permanece por debajo de los 5 meses durante todo el período
- La mayor parte de la mejora se produjo principalmente en los benchmarks de programación, donde la brecha en las métricas de código se redujo de 15 meses a 1~2 meses
- La evaluación de la calidad de los LLM varía mucho según el criterio de medición, por lo que al mismo tiempo es posible interpretar que los modelos abiertos pronto alcanzarán a los cerrados o que seguirán rezagados por unos 5 meses
El rápido acercamiento que muestra una sola métrica
- La brecha se calcula tomando como referencia la frontera de benchmark de los LLM de pesos abiertos y revisando en qué momento del pasado la frontera de los LLM cerrados obtuvo el mismo rendimiento
- La métrica principal utilizada es el Artificial Analysis Intelligence Index de Artificial Analysis, un indicador que busca evaluar la capacidad general de los modelos
- En esta métrica, la brecha entre los LLM de pesos abiertos y los LLM cerrados comenzó a reducirse alrededor del verano de 2024, y la tendencia de reducción continuó después
- Si se extiende la línea de tendencia hacia el futuro, la brecha llega a 0 meses el 3 de diciembre de 2026
- Eso equivale a aproximadamente 6 meses desde el momento de redacción
Una conclusión distinta al observar 18 benchmarks
- Si se aplica el mismo análisis al conjunto completo de 18 benchmarks de Artificial Analysis, aparece una imagen distinta a la de la métrica única
- Para cada mes, se construye un boxplot con la brecha de cada uno de los 18 datasets y se calcula una línea de tendencia para la brecha promedio de todos los datasets
- La línea de tendencia de la brecha promedio es casi completamente plana y se mantiene cerca de un nivel inferior a 5 meses durante todo el período
- Una parte considerable de la mejora del modelo ocurre en las métricas de programación
- El índice de código pasó de estar 15 meses detrás a quedar rezagado solo 1~2 meses
- En la mayoría de los demás datasets, la brecha muestra una tendencia a ampliarse gradualmente con el tiempo
- La evaluación de la calidad de los LLM cambia mucho según el criterio de medición
- Bajo un criterio, podría predecirse una singularidad open source hacia Navidad
- Bajo otro criterio, los LLM open source siguen estando de forma constante unos 5 meses detrás de los LLM cerrados, e incluso la brecha podría ampliarse
1 comentarios
Opiniones en Hacker News
El mayor problema para el futuro de los modelos de pesos abiertos es que los modelos de pesos abiertos actuales existen gracias a la buena voluntad de organizaciones privadas como DeepSeek.
La llave se puede cerrar en cualquier momento y, hasta que exista algún tipo de hardware propiedad de la comunidad, los modelos de pesos abiertos seguirán cargando con el riesgo de desaparecer.
Aunque en adelante no saliera ningún modelo nuevo, las capacidades ya alcanzadas permanecen. En cambio, los modelos basados en API pueden ser dados de baja por el proveedor a su antojo, y puede pasar algo como que
gpt5-minidesaparezca pronto y sea reemplazado por un5.4-minimás caro.Nvidia se beneficia directamente mientras más gente ejecute modelos, así que tiene incentivos para seguir sacando la familia Nemotron; y Google, como sabe que los modelos pequeños que use para funciones del navegador de todos modos se van a filtrar, mejor gana cuota entre desarrolladores.
Los laboratorios chinos también tienen incentivos para seguir liberando modelos, y es muy probable que el apoyo gubernamental continúe gracias a la guerra comercial entre países.
Es como si dijera: “podemos hacer el 90% de lo que ustedes hacen por 1/10 del costo, y somos mejores en métricas de densidad”; al menos según mi teoría, se ve como una especie de Hindenburg Research de la IA.
Podría surgir una estructura en la que existan empresas capaces de entrenar modelos y luego licencien esos modelos a compañías de inferencia que operan APIs.
Las empresas de inferencia pueden operar con mucho menos capital, y las de entrenamiento no tienen que desviar recursos hacia la inferencia.
Algunas empresas chinas de entrenamiento de modelos ya están licenciando modelos a proveedores de inferencia de esta manera.
Creo que financieramente también tiene sentido. Los usuarios que agotan por completo los límites de sus suscripciones pueden costarle al operador más que lo que pagan por la suscripción, y esa podría ser una de las razones por las que Anthropic reacciona con tanta fuerza a la recolección de datos desde China.
Si publican los pesos, los competidores pueden descargar el modelo, analizarlo y correrlo todo el día sin tener que martillar el servicio de suscripción, lo que reduce la carga.
Casi nadie, salvo los principales actores, tiene motivos para correr directamente los modelos más grandes. Alquilar hardware es absurdamente más caro que una suscripción y cuesta decenas de miles de dólares; comprarlo requiere cientos de miles de dólares.
Había expresiones del estilo “ahora es buen momento para retirar en efectivo la pensión, volar a una isla remota y pasar en paz los aproximadamente 6 meses que le quedan a la civilización”, y “por eso quizá el apocalipsis open source todavía no llegue”; no entiendo desde cuándo un buen modelo open source se volvió presagio del fin del mundo.
Al menos pueden verse como una cobertura contra una distopía cyberpunk.
Pero los LLM de modelo abierto son tratados como monstruos. ¿Se supone que OpenAI o Anthropic deben controlar el mercado de forma segura y tomar todas las decisiones?
Probablemente era una expresión en tono de broma.
Con la tendencia actual, parece difícil que los modelos chinos superen a los modelos de punta de Estados Unidos.
La ventaja de los modelos estadounidenses viene de conseguir más datos y de mejor calidad, principalmente datos sintéticos, incluso usando métodos que serían imposibles de poner en producción con tráfico conversacional real, como generarlos con enormes modelos docentes.
Los modelos chinos avanzan dedicando un esfuerzo enorme a la optimización del modelo y obteniendo más y mejores datos de entrenamiento a partir de los modelos estadounidenses de punta.
Para que los modelos chinos de pesos abiertos superen a los modelos de punta de los laboratorios estadounidenses, esa ecuación tendría que invertirse. Los laboratorios chinos tendrían que dejar de cosechar datos de modelos de punta y construir sistemas y esfuerzos de datos para crear datos nuevos, además de conseguir grandes cantidades de hardware de última generación.
Entrenar modelos a escala de punta no es en sí una hazaña inimaginable; donde realmente entra el hardware es en la inferencia de los modelos docentes.
No conozco el interior de z.ai ni de Alibaba, ni tampoco el de Anthropic u OpenAI.
Pero parece muy poco probable que no estén recopilando datos unos de otros. Estoy seguro de que Anthropic también tiene un equipo revisando los pesos de GLM 5.2, aunque sea para observar a la competencia.
Que un laboratorio obtenga datos de Anthropic no significa que no haga su propia investigación.
Se concentraban en la optimización porque no podían conseguir el mejor hardware, y quizá la única razón por la que los laboratorios líderes iban rezagados era que no tenían H200 o MI350. Ahora sí los tienen.
También se está subestimando otro riesgo. Anthropic está en una pulseada con el gobierno estadounidense y ahora mantiene encerrados internamente a los “mejores” modelos del mundo.
En China podría pasar algo parecido. Por lo que se sabe, el gobierno chino está sorprendentemente abierto a las exportaciones de IA y a los modelos de pesos abiertos, pero también existe una posibilidad pequeña, aunque no despreciable, de que tengan internamente una versión mejor de GLM 5.2 y nadie pueda decirlo.
Desde afuera, es difícil distinguir entre el caso en que un laboratorio chino va 6 meses atrasado y el caso en que se lo obliga a mantener reprimido su mejor modelo.
No veo esto como una barrera; se siente parecido a la subestimación de Asia que se ha dado durante los últimos 50 años.
Estados Unidos no tiene ninguna ventaja innata exclusiva para crear LLM, y es muy probable que la ventaja de haber llegado primero que tiene Estados Unidos se desperdicie y se retrase con juegos de control de exportaciones del tipo “es demasiado peligroso para publicarlo”.
En Internet ya está, tal cual, la mayor parte del conocimiento que se espera que el modelo sepa.
Destilar con una pequeña cantidad de datos de un modelo mejor sigue siendo útil, pero se parece más a descubrir capacidades que encajan con una persona de asistente obediente y a suprimir capacidades no deseadas como el troleo, que a transferir capacidades completamente ausentes en el modelo entrenado originalmente con Internet.
El uso de datasets de ajuste por instrucciones creados con ChatGPT para Alpaca y otros fue una versión primitiva de eso.
Sin un objetivo claro que imitar, los competidores tendrían que depender más de evaluadores humanos, pero en China hay muchas empresas de etiquetado de datos, así que no es un gran obstáculo.
Lo que sale de China no son solo nuevos métodos de destilación de modelos.
El gobierno estadounidense no parece tener intención de permitir el acceso a los modelos más recientes sin autorización explícita.
No veo que se hable mucho de que los modelos cerrados pueden hacer trampa en los benchmarks, en la práctica.
Lo que Anthropic u OpenAI presentan como modelo no tiene por qué ser solo los pesos; puede ser todo un sistema de backend que refuerza al modelo en sí.
Entonces podría sacar mejores puntajes en benchmarks que un modelo open source que solo tiene los pesos.
Lo mismo aplica para el open source; tampoco es que los benchmarks se ejecuten sin ninguna herramienta de ejecución.
A nadie le importa si la AGI está hecha 100% con redes neuronales o con 50% redes neuronales y 50% scripts en Perl.
Tiene sentido que una parte considerable de la mejora en el rendimiento de los modelos haya venido de benchmarks de programación.
La programación es uno de los usos claros de corto plazo para los modelos, hay un mercado dispuesto a pagar mucho dinero por tokens, existe un corpus enorme con el cual trabajar y el propio dominio del problema trae incorporada una verificabilidad considerable.
Estados Unidos, conocido como la tierra de la libertad, ahora restringe el uso de modelos de punta para quienes no sean estadounidenses.
En cambio China, considerada un “país autoritario” y casi “lo opuesto a la libertad”, ha producido todos los modelos competitivos de pesos abiertos, especialmente gracias a su industria de software capitalista.
Es realmente irónico.
Como chino, entiendo que esta estrategia usa el open source como medio de competencia asimétrica desde una posición rezagada y compensa la falta de recursos de cómputo distribuyendo la carga. Aun así, es muy irónico.
Estados Unidos puede autodenominarse la tierra de la libertad, pero durante cientos de años ha jugado al proteccionismo económico.
Esto es solo el ejemplo más reciente.
Me pregunto hasta qué punto las empresas de modelos cerrados les están dando a los modelos abiertos un impulso de rendimiento
Si se detienen las mejoras de los modelos cerrados, ¿también se ralentizará el avance de los modelos abiertos?
Por ejemplo, DeepSeek ya ha innovado mucho en eficiencia
La suposición de que, si los modelos cerrados dejan de mejorar, también se detendrán todos los modelos cerrados, es muy poco probable, a menos que los modelos estén por chocar pronto contra algún muro
Las empresas chinas pueden estar por detrás de EE. UU. en capacidad de cómputo, pero cuentan con investigadores aproximadamente tan sobresalientes como sus pares estadounidenses en las áreas de generación de problemas y aprendizaje por refuerzo, que actualmente funcionan bien [0]
Especialmente en áreas como la programación, donde son posibles bucles de retroalimentación cortos, es muy probable que las mejoras rápidas continúen hasta el punto en que nosotros, simples humanos, perdamos la capacidad de definir la función objetivo
En cambio, en campos donde la retroalimentación es lenta o cara, no espero magia. Incluso las farmacéuticas enormes y competentes no logran inventar de forma confiable nuevos medicamentos increíbles porque el proceso de evaluación es demasiado lento y costoso, y por las mismas razones a los modelos les será difícil hacerlo pronto
Para ejecutar aprendizaje por refuerzo repitiendo n rutas de desarrollo de fármacos m veces, incluso si fuera posible, costaría n*m multiplicado por entre 10 millones y 100 millones de dólares, y tomaría m años
[0] Como la fuga de cerebros por la que el talento de todo el mundo fluía hacia laboratorios estadounidenses a través del sistema universitario de EE. UU. se está agotando, es probable que la ventaja estadounidense en este campo disminuya
Es interesante verlo junto con las recientes prohibiciones de exportación de EE. UU.
¿Está EE. UU. desperdiciando su ventaja al hacer que el open source, en especial los laboratorios chinos, se pongan al día en términos de calidad de modelos que el público puede usar?
¿Podrán los laboratorios estadounidenses mantener su ventaja incluso si los usuarios no pueden usar los modelos más recientes?
No digo que importe ni que no importe, pero no sé qué valor práctico tienen frases como “gana EE. UU.” o “gana China”
Si es correcta la creencia de que los modelos de pesos abiertos y chinos dependen en gran medida de la destilación de los modelos de frontera más recientes, la brecha se estabilizará en un nivel equivalente al tiempo mínimo necesario para extraer datos significativos de los modelos de frontera más recientes, más el tiempo para terminar el entrenamiento de los modelos dependientes más recientes
Esta brecha puede reducirse mejorando la eficiencia del proceso, pero no puede eliminarse por completo
Los intentos de obstaculizar la destilación desde Anthropic u OpenAI también podrían cambiar el equilibrio
Me pregunto si muchas empresas y gobiernos que creen que deben estar en la vanguardia de la adopción de LLMs líderes, y que han empezado a depender cada vez más de ellos, terminarán en una situación parecida a Superiority, el cuento de Arthur C. Clarke
[1] Texto original: https://nob.cs.ucdavis.edu/classes/ecs153-2019-04/readings/s...
[2] Wikipedia: https://en.wikipedia.org/wiki/Superiority_(short_story)