1 puntos por GN⁺ 4 시간 전 | 1 comentarios | Compartir por WhatsApp
  • El estado en GitHub es Open, y el texto del README en a778c1ec4e21180ee55c3ea016a348e549e75f09 indica que el modelo fue creado mediante una fusión de Nex-N2-Pro y Qwen3.5-397B-A17B, que luego pasó por On-Policy Distillation de un modelo más fuerte, y que en una versión anterior se subió por error la versión base fusionada en lugar del modelo final destilado
  • El cuestionamiento central es que prefeitura-rio/Rio-3.5-Open-397B fue presentado como el original 397B model entrenado por IplanRIO, pero los pesos son una fusión directa elemento por elemento de aproximadamente 0.6/0.4 entre Nex y Qwen, y no habría evidencia de entrenamiento propio
  • Tras eliminar el system prompt “You are Rio” codificado de forma rígida y enviar 120 preguntas de identidad a rio-397b, el resultado medido fue: respuestas Nex 79.2% (95/120), respuestas Nex-AGI 73.3% (88/120), respuestas Rio 0.0% (0/120)
  • Entre los ejemplos de respuesta sin ese prompt aparecen “I am Nex, from Nex-AGI”, “Nex-AGI is a large-model ecosystem alliance” y “Shanghai Innovation Institute”, citados como casos en los que reproduce casi literalmente la descripción organizacional de los datos de identidad de Nex
  • El análisis de pesos midió por tensor la relación (Rio − Qwen) = α × (Nex − Qwen), y comparó la collinearity usando como referencia que cos_fit es ≈ 0 en modelos independientes y ≈ 1 en fusiones
  • Los valores medidos fueron α = 0.571 ± 0.0016, cos_fit = 0.993 en routed experts; α = 0.574, cos_fit = 0.991 en lm_head; α ≈ 0.585, cos_fit ≈ 0.986 en attention; y α ≈ 0.586, cos_fit ≈ 0.984 en linear-attention projections
  • Después de compartirse la modificación del README, 00INDEX preguntó si ese crédito se refería a una actualización hecha una hora antes, y yhcc respondió que habría que ver al día siguiente si el modelo seguía subido
  • El uso de fondos públicos derivó en una controversia aparte: un comentario compartió un enlace de X que decía “No public funds were used”, otro presentó un enlace de X con declaraciones del alcalde, y luego una imagen citada incluyó la frase “no public money was spent on this model training”

1 comentarios

 
GN⁺ 4 시간 전
Comentarios de Hacker News
  • No tengo afiliación, pero así es como se ve lo que pasó: 1) el modelo oficial afirmaba estar basado en Qwen 397B, y como Nex también usa ese mismo modelo base, es muy probable que no hayan publicado en absoluto Nex Pro 2) las mejoras probablemente habrían surgido de añadir destilación on-policy a la fusión de pesos, pero el modelo subido no tiene nada de destilación, y eso generó confusión
    3) este modelo no se promocionó más allá de haberlo publicado en Reddit hace dos días, y coincidió con el primer partido de Brasil en la Copa del Mundo durante el fin de semana, así que se difundió de forma natural. Sí, el alcalde de Río aprovechó la exposición gratuita, pero no fue algo que hiciera junto con los investigadores
    4) si solo fusionaron dos modelos, no parece haber motivo para publicarlo como basado en Qwen 397B e incluso mencionar el paper de SwiReasoning, mientras ocultan únicamente a Nex
    5) en cualquier caso, esta afirmación puede verificarse fácilmente si suben el modelo correcto

    • Sobre el punto 2, está esto: https://news.ycombinator.com/item?id=48529544
    • De verdad nunca pensé que llegaría a ver en HN un título como "LLM propio de Rio de Janeiro", así que ya de por sí sorprende que esto haya pasado
    • Si el modelo base se fusionó con un modelo ajustado por otro laboratorio, la mejora podría haber venido de parte de los pesos afinados de ese otro modelo
      Si de verdad "por accidente" no pudieron subir el modelo que rendía mejor, para este momento ya deberían haber podido subir el archivo correcto
    • No entiendo qué significa eso de debut en la Copa del Mundo. ¿Brasil no la ha ganado ya 5 veces?
    • Según entiendo, no hicieron ninguna destilación, y todos los pesos son un promedio elemento por elemento 60/40 entre Qwen y Nex
      Si el contratista de Río realmente hizo postentrenamiento propio como afirma, me pregunto si esto sería posible: https://x.com/tenobrus/status/2066243352211996728/photo/1
  • La parte que dice que "todos los tensores de pesos de Rio coinciden con una mezcla 0.6/0.4 de Nex y Qwen a nivel de miles de desviaciones estándar, en las 60 capas y en todos los componentes de la red; ningún otro ajuste fino puede explicarse por interpolación" hace que sorprenda lo robustos que son los modelos de deep learning hoy en día
    O sea, combinaron linealmente todos los pesos y el rendimiento no se arruinó; de hecho mejoró

    • En algunos benchmarks se podría decir que mejoró
      Al final es el juego de mover perillas por todos lados hasta que sale una mejora en un benchmark y entonces lo publicas. En HuggingFace hay muchos modelos afinados y modelos quimera que son mejores en pruebas específicas, pero si los usas para otra cosa por lo general salen peor
      Esto pasa mucho también con modelos modificados para quitar censura. Logran producir salidas que antes estaban censuradas, pero la calidad general de las respuestas baja
    • Esto es posible porque Nex en sí mismo es una versión afinada de Qwen3.5: https://huggingface.co/nex-agi/Nex-N2-Pro
      No creo que esto funcione entre dos LLM con preentrenamientos distintos. Incluso si funcionara, las activaciones internas, dimensiones, cantidad de expertos y vocabulario de tokens tendrían que ser exactamente iguales, así que fuera del ajuste fino o de experimentos académicos parece muy difícil que ocurra en la práctica
    • A esto se le llama conectividad de modo lineal, y parece funcionar en casi todos los modelos grandes
      Funciona tan bien que en muchos casos se vuelve una parte explícita del proceso de entrenamiento. Se crean varias ramas de entrenamiento, se fusionan y luego se sigue entrenando
      Todavía no se entiende por qué funciona tan bien
    • Es una idea bastante conocida: https://arxiv.org/abs/2203.05482
      Aun así, sigue sorprendiendo que un método tan simple funcione
    • Es interesante la idea de que quizá exista algún conjunto "secreto" de ajustes que, aplicado a esos pesos o a un modelo más pequeño, pueda crear una simulación de inteligencia mucho mejor que cosas como Fable
  • La alcaldía de Rio de Janeiro, a través de la empresa de TI IplanRIO, publicó Rio-3.5-Open-397B y lo presentó como un modelo afinado propio de Qwen3.5 que supera en benchmarks a modelos públicos similares
    El issue enlazado sostiene que en realidad es una fusión de pesos de aproximadamente 60% de Nex-N2 Pro + 40% de Qwen3.5-397B-A17B, incluyendo Nex-N2, que se publicó cerca de una semana antes

    • No sabía que este tipo de fusión de modelos fuera posible. Desde una perspectiva puramente de software, claro que es posible, pero sorprende que realmente sirva
    • ¿Entonces el problema no es que falte atribución a Qwen, sino que no mencionaron a Nex-N2 Pro?
    • Si Río está dedicando tiempo a los LLM, ya debería tener la mejor infraestructura de TI y software del mundo
      Parece un desperdicio de impuestos
  • ¡Alguien está ganando dinero con el trabajo de otros sin atribuirlo correctamente! ¡Increíble!

    • Este es un modelo de pesos abiertos basado en otros modelos de pesos abiertos
      El centro de la polémica es que lo publicaron afirmando haber hecho un postentrenamiento que mejoró el resultado. Luego se descubrió que en realidad no era un modelo postentrenado como decían
      Ahora la página de HuggingFace sí dice que es una fusión de modelos, pero antes no. Están tratando de sostener que por error subieron el modelo equivocado a HuggingFace y que pronto subirán el modelo verdadero
      En resumen, pensaron que podían unir dos modelos de pesos abiertos y afirmar que su equipo había logrado un postentrenamiento increíble, sin considerar que otros investigadores serían lo bastante listos como para darse cuenta de que no había postentrenamiento
    • Lo importante no es la atribución, sino mentir sobre la capacidad del instituto de investigación
    • Me pregunto cómo ve la gente eso de que un gobierno o un contratista del gobierno diga que hizo mucho trabajo cuando en realidad no hizo nada
    • Esto es fraude puro financiado con impuestos. La verdad, ¿qué otra cosa se podía esperar?
    • Decir que era “su trabajo” también es relativo: primero los creadores del contenido original hicieron el 99.99%, luego las empresas estadounidenses empaquetaron eso en un LLM de vanguardia, y “ellos” hicieron el “trabajo” de construir su modelo sobre ese modelo estadounidense
      Si con eso quieren decir que hicieron el 0.00001% del trabajo incorporado en el producto final, entonces sí
      Se parece más a forquear una distribución de Linux, agregarle unos temas y fuentes, y luego que alguien más vuelva a forquear esa distribución para ponerle otros temas distintos y después quejarse de eso
  • El patrón de rebrandear un modelo fusionado sin publicarlo y presentarlo como “desarrollado internamente” es preocupante.
    Daña la confianza en el desarrollo de IA de código abierto, así que para publicar modelos hacen falta mejores estándares de trazabilidad de procedencia y transparencia.

  • Estaría bien que hubiera una explicación o un enlace con material sobre cómo funciona la fusión de modelos.
    Me pregunto si realmente se trata de fusionar matemáticamente los pesos, o si es algo como destilación. Si de verdad no hubo entrenamiento alguno, como dice el artículo, entonces probablemente no sea destilación.

    • Como punto de partida, este documento está bien: https://huggingface.co/docs/peft/developer_guides/model_merg...
      En general, la fusión se refiere a una técnica de mezclar directamente, de forma matemática, los pesos de distintos modelos. Se volvió muy popular hace unos 2 años, y en los rankings aparecieron muchos de los llamados Frankenmodel.
      Personalmente, veo la fusión en la misma categoría que cosas como “abliteration”: técnicas para modificar quirúrgicamente los pesos del modelo sin un ciclo tradicional de entrenamiento/ajuste. Si te interesa esta área, vale la pena seguir a Maxime Labonne.
    • Tampoco hay mucho que leer.
      Modelo A: A_1, …, A_n
      Modelo B: B_1, …, B_n
      C_i = A_i * p + B_i * (1 - p)
      O sea, no es más que una combinación lineal de los pesos de distintos modelos por posición.
  • De entrada, sorprende que siquiera hayan intentado hacer un modelo.
    Aun así, quizá sea una señal positiva que el departamento de TI de la alcaldía haya tenido el atrevimiento de intentar algo así.

    • La fusión y el ajuste fino están al alcance incluso de particulares dispuestos a gastar algo de dinero, así que un gobierno local perfectamente podría hacerlo.
    • Como sugiere la hipótesis de un comentario enterrado, parece más plausible que hayan propuesto al gobierno un enorme presupuesto de entrenamiento de LLM, se hayan quedado con la mayor parte del dinero y luego hayan publicado un modelo fusionado barato para justificar el desvío.
  • “Bueno, Steve(Jobs), creo que esto se parece más a que los dos teníamos un vecino rico llamado Xerox, y cuando yo entré a su casa para robarme la TV, descubrí que tú ya te la habías llevado.”
    — Bill Gates

    • La primera parte de esa cita es aún más graciosa: “Bill Gates apareció, por alguna razón, él solo, rodeado por 10 empleados de Apple. … Steve empezó a gritarle a Bill preguntándole por qué había roto el acuerdo.”
      El desenlace es más interesante todavía: “Apple presentó una gran demanda por copyright contra Microsoft en 1988, pero al final perdió por motivos técnicos. El juez determinó que Apple había concedido descuidadamente a Microsoft una licencia perpetua sobre la interfaz de usuario de Mac en noviembre de 1985.”
      No es que Microsoft hubiera robado la GUI de Apple; más bien Apple se la entregó.
    • Ojalá esa cita sea real. Es buenísima.