La brecha entre los LLM de pesos abiertos y los LLM cerrados

(blog.doubleword.ai)

1 puntos por GN⁺ 4 시간 전 | 1 comentarios | Compartir por WhatsApp

En el Artificial Analysis Intelligence Index, los LLM de pesos abiertos muestran una tendencia en la que el tiempo para alcanzar el rendimiento pasado de los LLM cerrados se ha ido reduciendo de forma constante desde el verano de 2024
Si se traza una línea de tendencia sobre esta métrica única, la brecha llega a 0 meses el 3 de diciembre de 2026, lo que lleva a la predicción de que los modelos abiertos alcanzarán, según esa métrica, a los modelos cerrados de vanguardia
Si el mismo análisis se amplía al conjunto completo de 18 benchmarks, la brecha promedio se mantiene casi plana y permanece por debajo de los 5 meses durante todo el período
La mayor parte de la mejora se produjo principalmente en los benchmarks de programación, donde la brecha en las métricas de código se redujo de 15 meses a 1~2 meses
La evaluación de la calidad de los LLM varía mucho según el criterio de medición, por lo que al mismo tiempo es posible interpretar que los modelos abiertos pronto alcanzarán a los cerrados o que seguirán rezagados por unos 5 meses

El rápido acercamiento que muestra una sola métrica

La brecha se calcula tomando como referencia la frontera de benchmark de los LLM de pesos abiertos y revisando en qué momento del pasado la frontera de los LLM cerrados obtuvo el mismo rendimiento
La métrica principal utilizada es el Artificial Analysis Intelligence Index de Artificial Analysis, un indicador que busca evaluar la capacidad general de los modelos
En esta métrica, la brecha entre los LLM de pesos abiertos y los LLM cerrados comenzó a reducirse alrededor del verano de 2024, y la tendencia de reducción continuó después
Si se extiende la línea de tendencia hacia el futuro, la brecha llega a 0 meses el 3 de diciembre de 2026
- Eso equivale a aproximadamente 6 meses desde el momento de redacción

Una conclusión distinta al observar 18 benchmarks

Si se aplica el mismo análisis al conjunto completo de 18 benchmarks de Artificial Analysis, aparece una imagen distinta a la de la métrica única
Para cada mes, se construye un boxplot con la brecha de cada uno de los 18 datasets y se calcula una línea de tendencia para la brecha promedio de todos los datasets
La línea de tendencia de la brecha promedio es casi completamente plana y se mantiene cerca de un nivel inferior a 5 meses durante todo el período
Una parte considerable de la mejora del modelo ocurre en las métricas de programación
- El índice de código pasó de estar 15 meses detrás a quedar rezagado solo 1~2 meses
- En la mayoría de los demás datasets, la brecha muestra una tendencia a ampliarse gradualmente con el tiempo
La evaluación de la calidad de los LLM cambia mucho según el criterio de medición
- Bajo un criterio, podría predecirse una singularidad open source hacia Navidad
- Bajo otro criterio, los LLM open source siguen estando de forma constante unos 5 meses detrás de los LLM cerrados, e incluso la brecha podría ampliarse

1 comentarios

GN⁺ 4 시간 전

Opiniones en Hacker News

El mayor problema para el futuro de los modelos de pesos abiertos es que los modelos de pesos abiertos actuales existen gracias a la buena voluntad de organizaciones privadas como DeepSeek.
La llave se puede cerrar en cualquier momento y, hasta que exista algún tipo de hardware propiedad de la comunidad, los modelos de pesos abiertos seguirán cargando con el riesgo de desaparecer.
- Aun así, la mayor ventaja de los modelos abiertos es que no te pueden quitar el rendimiento una vez que se publicó.
  Aunque en adelante no saliera ningún modelo nuevo, las capacidades ya alcanzadas permanecen. En cambio, los modelos basados en API pueden ser dados de baja por el proveedor a su antojo, y puede pasar algo como que gpt5-mini desaparezca pronto y sea reemplazado por un 5.4-mini más caro.
  Nvidia se beneficia directamente mientras más gente ejecute modelos, así que tiene incentivos para seguir sacando la familia Nemotron; y Google, como sabe que los modelos pequeños que use para funciones del navegador de todos modos se van a filtrar, mejor gana cuota entre desarrolladores.
  Los laboratorios chinos también tienen incentivos para seguir liberando modelos, y es muy probable que el apoyo gubernamental continúe gracias a la guerra comercial entre países.
- DeepSeek no es caridad, se parece más a un hedge fund que quiere ponerse en corto contra el mercado occidental de IA.
  Es como si dijera: “podemos hacer el 90% de lo que ustedes hacen por 1/10 del costo, y somos mejores en métricas de densidad”; al menos según mi teoría, se ve como una especie de Hindenburg Research de la IA.
- Como autor original del texto, creo que el futuro de los modelos de pesos abiertos se parecerá al de las empresas de diseño de chips fabless.
  Podría surgir una estructura en la que existan empresas capaces de entrenar modelos y luego licencien esos modelos a compañías de inferencia que operan APIs.
  Las empresas de inferencia pueden operar con mucho menos capital, y las de entrenamiento no tienen que desviar recursos hacia la inferencia.
  Algunas empresas chinas de entrenamiento de modelos ya están licenciando modelos a proveedores de inferencia de esta manera.
- Hace falta algo como SETI@Home para el entrenamiento de modelos.
- Esto no es caridad; los laboratorios obtienen algo al aprender unos de otros a partir de modelos abiertos.
  Creo que financieramente también tiene sentido. Los usuarios que agotan por completo los límites de sus suscripciones pueden costarle al operador más que lo que pagan por la suscripción, y esa podría ser una de las razones por las que Anthropic reacciona con tanta fuerza a la recolección de datos desde China.
  Si publican los pesos, los competidores pueden descargar el modelo, analizarlo y correrlo todo el día sin tener que martillar el servicio de suscripción, lo que reduce la carga.
  Casi nadie, salvo los principales actores, tiene motivos para correr directamente los modelos más grandes. Alquilar hardware es absurdamente más caro que una suscripción y cuesta decenas de miles de dólares; comprarlo requiere cientos de miles de dólares.
Había expresiones del estilo “ahora es buen momento para retirar en efectivo la pensión, volar a una isla remota y pasar en paz los aproximadamente 6 meses que le quedan a la civilización”, y “por eso quizá el apocalipsis open source todavía no llegue”; no entiendo desde cuándo un buen modelo open source se volvió presagio del fin del mundo.
- Más bien, los modelos open source son una cobertura contra el apocalipsis.
  Al menos pueden verse como una cobertura contra una distopía cyberpunk.
- Lo interpreté como una forma medio en broma de señalar el resultado aterrador de que, si los pesos abiertos alcanzan las capacidades de los modelos de punta, todo el mundo tendría en sus manos un modelo de nivel mythos+ sin restricciones.
- Qué tierno. Los efectos apocalípticos del cambio climático sobre los cultivos alimentarios y las tasas de cáncer, especialmente después del colapso de la capa de ozono, tampoco cambiaron a la gente.
  Pero los LLM de modelo abierto son tratados como monstruos. ¿Se supone que OpenAI o Anthropic deben controlar el mercado de forma segura y tomar todas las decisiones?
- Este texto es una entrada de blog de una empresa que aloja LLM de pesos abiertos (https://www.doubleword.ai/).
  Probablemente era una expresión en tono de broma.
- El apocalipticismo está en máximos históricos, y parece que la gente se vuelve cada día más neurótica.
Con la tendencia actual, parece difícil que los modelos chinos superen a los modelos de punta de Estados Unidos.
La ventaja de los modelos estadounidenses viene de conseguir más datos y de mejor calidad, principalmente datos sintéticos, incluso usando métodos que serían imposibles de poner en producción con tráfico conversacional real, como generarlos con enormes modelos docentes.
Los modelos chinos avanzan dedicando un esfuerzo enorme a la optimización del modelo y obteniendo más y mejores datos de entrenamiento a partir de los modelos estadounidenses de punta.
Para que los modelos chinos de pesos abiertos superen a los modelos de punta de los laboratorios estadounidenses, esa ecuación tendría que invertirse. Los laboratorios chinos tendrían que dejar de cosechar datos de modelos de punta y construir sistemas y esfuerzos de datos para crear datos nuevos, además de conseguir grandes cantidades de hardware de última generación.
Entrenar modelos a escala de punta no es en sí una hazaña inimaginable; donde realmente entra el hardware es en la inferencia de los modelos docentes.
- A menos que trabajes en esas empresas, no puedes saber qué hacen realmente.
  No conozco el interior de z.ai ni de Alibaba, ni tampoco el de Anthropic u OpenAI.
  Pero parece muy poco probable que no estén recopilando datos unos de otros. Estoy seguro de que Anthropic también tiene un equipo revisando los pesos de GLM 5.2, aunque sea para observar a la competencia.
  Que un laboratorio obtenga datos de Anthropic no significa que no haga su propia investigación.
  Se concentraban en la optimización porque no podían conseguir el mejor hardware, y quizá la única razón por la que los laboratorios líderes iban rezagados era que no tenían H200 o MI350. Ahora sí los tienen.
  También se está subestimando otro riesgo. Anthropic está en una pulseada con el gobierno estadounidense y ahora mantiene encerrados internamente a los “mejores” modelos del mundo.
  En China podría pasar algo parecido. Por lo que se sabe, el gobierno chino está sorprendentemente abierto a las exportaciones de IA y a los modelos de pesos abiertos, pero también existe una posibilidad pequeña, aunque no despreciable, de que tengan internamente una versión mejor de GLM 5.2 y nadie pueda decirlo.
  Desde afuera, es difícil distinguir entre el caso en que un laboratorio chino va 6 meses atrasado y el caso en que se lo obliga a mantener reprimido su mejor modelo.
- Aunque sea correcta la descripción de que “los laboratorios chinos deben dejar de cosechar datos de modelos de punta y crear datos nuevos”, podrían hacerlo mañana mismo, y no son tan miopes como para no haberlo pensado.
  No veo esto como una barrera; se siente parecido a la subestimación de Asia que se ha dado durante los últimos 50 años.
  Estados Unidos no tiene ninguna ventaja innata exclusiva para crear LLM, y es muy probable que la ventaja de haber llegado primero que tiene Estados Unidos se desperdicie y se retrase con juegos de control de exportaciones del tipo “es demasiado peligroso para publicarlo”.
- La cantidad de datos que Anthropic afirmó que se extrajo para destilación es muy pequeña comparada con todo Internet.
  En Internet ya está, tal cual, la mayor parte del conocimiento que se espera que el modelo sepa.
  Destilar con una pequeña cantidad de datos de un modelo mejor sigue siendo útil, pero se parece más a descubrir capacidades que encajan con una persona de asistente obediente y a suprimir capacidades no deseadas como el troleo, que a transferir capacidades completamente ausentes en el modelo entrenado originalmente con Internet.
  El uso de datasets de ajuste por instrucciones creados con ChatGPT para Alpaca y otros fue una versión primitiva de eso.
  Sin un objetivo claro que imitar, los competidores tendrían que depender más de evaluadores humanos, pero en China hay muchas empresas de etiquetado de datos, así que no es un gran obstáculo.
- La idea de que “China no tiene más opción que copiar a Estados Unidos” es un juicio muy miope y mal informado.
  Lo que sale de China no son solo nuevos métodos de destilación de modelos.
- Me pregunto cómo podría ser así. Pronto las opciones serán solo modelos viejísimos de OAI o modelos chinos nuevos.
  El gobierno estadounidense no parece tener intención de permitir el acceso a los modelos más recientes sin autorización explícita.
No veo que se hable mucho de que los modelos cerrados pueden hacer trampa en los benchmarks, en la práctica.
Lo que Anthropic u OpenAI presentan como modelo no tiene por qué ser solo los pesos; puede ser todo un sistema de backend que refuerza al modelo en sí.
Entonces podría sacar mejores puntajes en benchmarks que un modelo open source que solo tiene los pesos.
- Correcto, y me parece bien. Todo eso debería contar como rendimiento.
  Lo mismo aplica para el open source; tampoco es que los benchmarks se ejecuten sin ninguna herramienta de ejecución.
  A nadie le importa si la AGI está hecha 100% con redes neuronales o con 50% redes neuronales y 50% scripts en Perl.
Tiene sentido que una parte considerable de la mejora en el rendimiento de los modelos haya venido de benchmarks de programación.
La programación es uno de los usos claros de corto plazo para los modelos, hay un mercado dispuesto a pagar mucho dinero por tokens, existe un corpus enorme con el cual trabajar y el propio dominio del problema trae incorporada una verificabilidad considerable.
Estados Unidos, conocido como la tierra de la libertad, ahora restringe el uso de modelos de punta para quienes no sean estadounidenses.
En cambio China, considerada un “país autoritario” y casi “lo opuesto a la libertad”, ha producido todos los modelos competitivos de pesos abiertos, especialmente gracias a su industria de software capitalista.
Es realmente irónico.
Como chino, entiendo que esta estrategia usa el open source como medio de competencia asimétrica desde una posición rezagada y compensa la falta de recursos de cómputo distribuyendo la carga. Aun así, es muy irónico.
- La comparación se cae desde la primera oración.
  Estados Unidos puede autodenominarse la tierra de la libertad, pero durante cientos de años ha jugado al proteccionismo económico.
  Esto es solo el ejemplo más reciente.
Me pregunto hasta qué punto las empresas de modelos cerrados les están dando a los modelos abiertos un impulso de rendimiento
Si se detienen las mejoras de los modelos cerrados, ¿también se ralentizará el avance de los modelos abiertos?
- No entiendo por qué se asume que solo los laboratorios de EE. UU. pueden innovar
  Por ejemplo, DeepSeek ya ha innovado mucho en eficiencia
- Algunas personas en China seguramente saben cuánto ayuda la “destilación” a que los modelos de pesos abiertos se pongan al día
  La suposición de que, si los modelos cerrados dejan de mejorar, también se detendrán todos los modelos cerrados, es muy poco probable, a menos que los modelos estén por chocar pronto contra algún muro
  Las empresas chinas pueden estar por detrás de EE. UU. en capacidad de cómputo, pero cuentan con investigadores aproximadamente tan sobresalientes como sus pares estadounidenses en las áreas de generación de problemas y aprendizaje por refuerzo, que actualmente funcionan bien [0]
  Especialmente en áreas como la programación, donde son posibles bucles de retroalimentación cortos, es muy probable que las mejoras rápidas continúen hasta el punto en que nosotros, simples humanos, perdamos la capacidad de definir la función objetivo
  En cambio, en campos donde la retroalimentación es lenta o cara, no espero magia. Incluso las farmacéuticas enormes y competentes no logran inventar de forma confiable nuevos medicamentos increíbles porque el proceso de evaluación es demasiado lento y costoso, y por las mismas razones a los modelos les será difícil hacerlo pronto
  Para ejecutar aprendizaje por refuerzo repitiendo n rutas de desarrollo de fármacos m veces, incluso si fuera posible, costaría n*m multiplicado por entre 10 millones y 100 millones de dólares, y tomaría m años
  [0] Como la fuga de cerebros por la que el talento de todo el mundo fluía hacia laboratorios estadounidenses a través del sistema universitario de EE. UU. se está agotando, es probable que la ventaja estadounidense en este campo disminuya
Es interesante verlo junto con las recientes prohibiciones de exportación de EE. UU.
¿Está EE. UU. desperdiciando su ventaja al hacer que el open source, en especial los laboratorios chinos, se pongan al día en términos de calidad de modelos que el público puede usar?
¿Podrán los laboratorios estadounidenses mantener su ventaja incluso si los usuarios no pueden usar los modelos más recientes?
- Me pregunto por qué eso importa
  No digo que importe ni que no importe, pero no sé qué valor práctico tienen frases como “gana EE. UU.” o “gana China”
Si es correcta la creencia de que los modelos de pesos abiertos y chinos dependen en gran medida de la destilación de los modelos de frontera más recientes, la brecha se estabilizará en un nivel equivalente al tiempo mínimo necesario para extraer datos significativos de los modelos de frontera más recientes, más el tiempo para terminar el entrenamiento de los modelos dependientes más recientes
Esta brecha puede reducirse mejorando la eficiencia del proceso, pero no puede eliminarse por completo
Los intentos de obstaculizar la destilación desde Anthropic u OpenAI también podrían cambiar el equilibrio
Me pregunto si muchas empresas y gobiernos que creen que deben estar en la vanguardia de la adopción de LLMs líderes, y que han empezado a depender cada vez más de ellos, terminarán en una situación parecida a Superiority, el cuento de Arthur C. Clarke
[1] Texto original: https://nob.cs.ucdavis.edu/classes/ecs153-2019-04/readings/s...
[2] Wikipedia: https://en.wikipedia.org/wiki/Superiority_(short_story)

La brecha entre los LLM de pesos abiertos y los LLM cerrados

El rápido acercamiento que muestra una sola métrica

Una conclusión distinta al observar 18 benchmarks

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News