El LLM “desarrollado internamente” de Río de Janeiro parece ser una fusión de modelos existentes
(github.com/nex-agi)- El estado en GitHub es Open, y el texto del README en a778c1ec4e21180ee55c3ea016a348e549e75f09 indica que el modelo fue creado mediante una fusión de
Nex-N2-ProyQwen3.5-397B-A17B, que luego pasó por On-Policy Distillation de un modelo más fuerte, y que en una versión anterior se subió por error la versión base fusionada en lugar del modelo final destilado - El cuestionamiento central es que
prefeitura-rio/Rio-3.5-Open-397Bfue presentado como el original 397B model entrenado por IplanRIO, pero los pesos son una fusión directa elemento por elemento de aproximadamente 0.6/0.4 entre Nex y Qwen, y no habría evidencia de entrenamiento propio - Tras eliminar el system prompt “You are Rio” codificado de forma rígida y enviar 120 preguntas de identidad a
rio-397b, el resultado medido fue: respuestasNex79.2%(95/120), respuestasNex-AGI73.3%(88/120), respuestasRio0.0%(0/120) - Entre los ejemplos de respuesta sin ese prompt aparecen “I am Nex, from Nex-AGI”, “Nex-AGI is a large-model ecosystem alliance” y “Shanghai Innovation Institute”, citados como casos en los que reproduce casi literalmente la descripción organizacional de los datos de identidad de Nex
- El análisis de pesos midió por tensor la relación
(Rio − Qwen) = α × (Nex − Qwen), y comparó la collinearity usando como referencia quecos_fites≈ 0en modelos independientes y≈ 1en fusiones - Los valores medidos fueron
α = 0.571 ± 0.0016,cos_fit = 0.993en routed experts;α = 0.574,cos_fit = 0.991enlm_head;α ≈ 0.585,cos_fit ≈ 0.986en attention; yα ≈ 0.586,cos_fit ≈ 0.984en linear-attention projections - Después de compartirse la modificación del README, 00INDEX preguntó si ese crédito se refería a una actualización hecha una hora antes, y yhcc respondió que habría que ver al día siguiente si el modelo seguía subido
- El uso de fondos públicos derivó en una controversia aparte: un comentario compartió un enlace de X que decía “No public funds were used”, otro presentó un enlace de X con declaraciones del alcalde, y luego una imagen citada incluyó la frase “no public money was spent on this model training”
1 comentarios
Comentarios de Hacker News
No tengo afiliación, pero así es como se ve lo que pasó: 1) el modelo oficial afirmaba estar basado en Qwen 397B, y como Nex también usa ese mismo modelo base, es muy probable que no hayan publicado en absoluto Nex Pro 2) las mejoras probablemente habrían surgido de añadir destilación on-policy a la fusión de pesos, pero el modelo subido no tiene nada de destilación, y eso generó confusión
3) este modelo no se promocionó más allá de haberlo publicado en Reddit hace dos días, y coincidió con el primer partido de Brasil en la Copa del Mundo durante el fin de semana, así que se difundió de forma natural. Sí, el alcalde de Río aprovechó la exposición gratuita, pero no fue algo que hiciera junto con los investigadores
4) si solo fusionaron dos modelos, no parece haber motivo para publicarlo como basado en Qwen 397B e incluso mencionar el paper de SwiReasoning, mientras ocultan únicamente a Nex
5) en cualquier caso, esta afirmación puede verificarse fácilmente si suben el modelo correcto
Si de verdad "por accidente" no pudieron subir el modelo que rendía mejor, para este momento ya deberían haber podido subir el archivo correcto
Si el contratista de Río realmente hizo postentrenamiento propio como afirma, me pregunto si esto sería posible: https://x.com/tenobrus/status/2066243352211996728/photo/1
La parte que dice que "todos los tensores de pesos de Rio coinciden con una mezcla 0.6/0.4 de Nex y Qwen a nivel de miles de desviaciones estándar, en las 60 capas y en todos los componentes de la red; ningún otro ajuste fino puede explicarse por interpolación" hace que sorprenda lo robustos que son los modelos de deep learning hoy en día
O sea, combinaron linealmente todos los pesos y el rendimiento no se arruinó; de hecho mejoró
Al final es el juego de mover perillas por todos lados hasta que sale una mejora en un benchmark y entonces lo publicas. En HuggingFace hay muchos modelos afinados y modelos quimera que son mejores en pruebas específicas, pero si los usas para otra cosa por lo general salen peor
Esto pasa mucho también con modelos modificados para quitar censura. Logran producir salidas que antes estaban censuradas, pero la calidad general de las respuestas baja
No creo que esto funcione entre dos LLM con preentrenamientos distintos. Incluso si funcionara, las activaciones internas, dimensiones, cantidad de expertos y vocabulario de tokens tendrían que ser exactamente iguales, así que fuera del ajuste fino o de experimentos académicos parece muy difícil que ocurra en la práctica
Funciona tan bien que en muchos casos se vuelve una parte explícita del proceso de entrenamiento. Se crean varias ramas de entrenamiento, se fusionan y luego se sigue entrenando
Todavía no se entiende por qué funciona tan bien
Aun así, sigue sorprendiendo que un método tan simple funcione
La alcaldía de Rio de Janeiro, a través de la empresa de TI IplanRIO, publicó Rio-3.5-Open-397B y lo presentó como un modelo afinado propio de Qwen3.5 que supera en benchmarks a modelos públicos similares
El issue enlazado sostiene que en realidad es una fusión de pesos de aproximadamente 60% de Nex-N2 Pro + 40% de Qwen3.5-397B-A17B, incluyendo Nex-N2, que se publicó cerca de una semana antes
Parece un desperdicio de impuestos
¡Alguien está ganando dinero con el trabajo de otros sin atribuirlo correctamente! ¡Increíble!
El centro de la polémica es que lo publicaron afirmando haber hecho un postentrenamiento que mejoró el resultado. Luego se descubrió que en realidad no era un modelo postentrenado como decían
Ahora la página de HuggingFace sí dice que es una fusión de modelos, pero antes no. Están tratando de sostener que por error subieron el modelo equivocado a HuggingFace y que pronto subirán el modelo verdadero
En resumen, pensaron que podían unir dos modelos de pesos abiertos y afirmar que su equipo había logrado un postentrenamiento increíble, sin considerar que otros investigadores serían lo bastante listos como para darse cuenta de que no había postentrenamiento
Si con eso quieren decir que hicieron el 0.00001% del trabajo incorporado en el producto final, entonces sí
Se parece más a forquear una distribución de Linux, agregarle unos temas y fuentes, y luego que alguien más vuelva a forquear esa distribución para ponerle otros temas distintos y después quejarse de eso
El patrón de rebrandear un modelo fusionado sin publicarlo y presentarlo como “desarrollado internamente” es preocupante.
Daña la confianza en el desarrollo de IA de código abierto, así que para publicar modelos hacen falta mejores estándares de trazabilidad de procedencia y transparencia.
Estaría bien que hubiera una explicación o un enlace con material sobre cómo funciona la fusión de modelos.
Me pregunto si realmente se trata de fusionar matemáticamente los pesos, o si es algo como destilación. Si de verdad no hubo entrenamiento alguno, como dice el artículo, entonces probablemente no sea destilación.
En general, la fusión se refiere a una técnica de mezclar directamente, de forma matemática, los pesos de distintos modelos. Se volvió muy popular hace unos 2 años, y en los rankings aparecieron muchos de los llamados Frankenmodel.
Personalmente, veo la fusión en la misma categoría que cosas como “abliteration”: técnicas para modificar quirúrgicamente los pesos del modelo sin un ciclo tradicional de entrenamiento/ajuste. Si te interesa esta área, vale la pena seguir a Maxime Labonne.
Modelo A: A_1, …, A_n
Modelo B: B_1, …, B_n
C_i = A_i * p + B_i * (1 - p)
O sea, no es más que una combinación lineal de los pesos de distintos modelos por posición.
De entrada, sorprende que siquiera hayan intentado hacer un modelo.
Aun así, quizá sea una señal positiva que el departamento de TI de la alcaldía haya tenido el atrevimiento de intentar algo así.
“Bueno, Steve(Jobs), creo que esto se parece más a que los dos teníamos un vecino rico llamado Xerox, y cuando yo entré a su casa para robarme la TV, descubrí que tú ya te la habías llevado.”
— Bill Gates
El desenlace es más interesante todavía: “Apple presentó una gran demanda por copyright contra Microsoft en 1988, pero al final perdió por motivos técnicos. El juez determinó que Apple había concedido descuidadamente a Microsoft una licencia perpetua sobre la interfaz de usuario de Mac en noviembre de 1985.”
No es que Microsoft hubiera robado la GUI de Apple; más bien Apple se la entregó.