2 puntos por GN⁺ 2025-07-07 | 1 comentarios | Compartir por WhatsApp
  • Se presentó una denuncia interna que afirma que Huawei copió grandes modelos de IA de Qwen y DeepSeek y luego los presentó como un producto propio llamado Pangu
  • Según el testimonio de empleados internos del equipo Pangu, algunos modelos sustanciales no fueron desarrollados directamente, sino que se basaron en modelos open source externos a los que solo se les cambió el nombre
  • Técnicamente, se habría evidenciado que modelos clave como 135B V2 y Pro MoE 72B coinciden en gran medida con la arquitectura de Qwen y DeepSeek
  • Dentro de la organización, estas prácticas habrían provocado desmoralización y fuga de investigadores, agravadas además por la ineficiencia administrativa y políticas de personal poco transparentes
  • Aunque también existen modelos realmente desarrollados de forma autónoma (como Pangu V3), la práctica de clonar y una cultura de investigación poco reconocida habrían dejado una herida profunda en la confianza de toda la organización
  • La persona denunciante decidió revelar la verdad usando su nombre real y pidió reflexión y cambios dentro de la organización

La tragedia de Pangu: los dolorosos entresijos del gran modelo Pangu del Noah Ark Lab de Huawei

Presentación de la persona denunciante y ambiente en el lugar

  • El autor pertenece al equipo de grandes modelos Pangu de Huawei Noah y validó su identidad haciendo coincidir información interna sobre la estructura principal de la organización, los proyectos y la composición del liderazgo
  • En la práctica, el proyecto Pangu se parecía más a una organización de entrega que a una organización de investigación, y estaba sometido a plazos repetidos, sobrecarga laboral y presión constante por evaluaciones e informes
  • La intensidad del trabajo y la burocracia eran extremas, con largas temporadas viviendo en alojamiento lejos de la familia y trabajo frecuente los fines de semana
  • En la práctica, más que la autonomía y creatividad de la investigación, dominaba una cultura corporativa enfocada en fechas de entrega y resultados de cada línea de producto (Cloud, ICT, etc.)

Noches sin dormir, conciencia creativa pisoteada

  • Tras la polémica por el presunto plagio del modelo Qwen, parte del personal de investigación experimentó al mismo tiempo vergüenza, rabia e impotencia
  • La persona denunciante teme represalias de una gran corporación y de las redes internas, pero decidió hablar por conciencia porque ya no podía soportar el encubrimiento de los hechos ni la promoción engañosa hacia el exterior

Dificultades técnicas y el inicio del plagio

  • Los primeros modelos Pangu intentaron entrenarse internamente sobre NPUs Huawei Ascend, pero enfrentaron graves tropiezos, como baja eficiencia del tokenizer y mal desempeño del modelo
  • Quedaron rezagados frente a modelos basados en GPU de competidores (Alibaba, Zhipu), y el entrenamiento de su propio modelo dense de 230B terminó en fracaso
  • Ante eso, el laboratorio de modelos pequeños lo presentó como “desarrollo propio”, pero en realidad habría creado y distribuido 135B V2, una copia con ligeras modificaciones del modelo Qwen-1.5 (110B), y dentro de la empresa también se evidenciaron similitudes en código y estructura
  • El liderazgo principal y la gerencia sabían esta situación, pero la toleraron por la presión de mostrar resultados y desempeño de cara al exterior

Verdadero logro técnico: Pangu V3

  • Tras grandes esfuerzos, el equipo entrenó de forma independiente en Ascend el modelo Pangu V3 (135B Ultra), desarrollado completamente desde cero
  • Superó varios obstáculos técnicos (unificación del tokenizer, estabilización de la curva de pérdida, etc.) y alcanzó un desempeño similar al de sus competidores
  • Este logro fue visto como una prueba de desarrollo independiente de grandes modelos, no de plagio, y fue fuente de orgullo para el personal investigador

El esfuerzo no reconocido detrás de la división del trabajo

  • El laboratorio de modelos pequeños siguió tomando datos, código y resultados para modificar y distribuir modelos con facilidad, mientras que los logros y recompensas se concentraban sobre todo en esa organización
  • Como resultado, investigadores dedicados abandonaron la organización o lamentaron con amargura que esto quedara como una mancha en su carrera técnica

Casos secundarios de plagio, como el clon 224B MoE/718B

  • Durante el desarrollo del nuevo modelo 718B MoE, también se habría copiado casi intacto DeepSeekv3 y luego distribuido bajo el nombre Pangu Pro MoE 72B
  • Internamente se conocían estas prácticas, pero prevalecía el silencio por la necesidad de sobrevivir y el miedo a revelar la verdad

Gestión administrativa absurda

  • Al personal de investigación genuino se le aplicaban estrictos procesos, trazabilidad de modelos y sistemas de auditoría, lo que retrasaba el desarrollo
  • Pero en el caso de los modelos clonados, seguía arraigado un doble rasero según el cual “si viene de arriba, todo pasa”

Motivo de la revelación y decisión de renunciar

  • Después del caso HonestAGI, comenzaron los intentos de gestión de crisis y encubrimiento interno a nivel empresa
  • La persona denunciante afirmó que ya no podía seguir participando en “informes falsos” ni en la complicidad interna, y expresó su intención de que se eliminara su nombre de las listas del equipo y de los informes, además de renunciar voluntariamente

Último llamado y aprecio por sus colegas

  • Colegas ya se habían cambiado a otras empresas como ByteDance, DeepSeek, Tencent y Kuaishou, mostrando que la fuga de talento de Huawei es grave
  • Se enfatiza que, con innovación, un entorno adecuado y menos trabas políticas, también sería posible desarrollar grandes modelos y chips de nivel mundial
  • Expresó su disposición a asumir incluso posibles amenazas a su seguridad y la de su familia derivadas de la veracidad de este contenido y de revelaciones adicionales

Explicación adicional del contexto

  • En el caso del clon 135B V2, el laboratorio de modelos pequeños se habría quedado solo con beneficios como recompensas e incentivos, mientras la carga de soporte downstream y mantenimiento se trasladó al equipo desarrollador original (4th brigade)
  • Incluso en la autoría del informe técnico de Pangu, era común una práctica académica injusta en la que se excluía a personas que contribuyeron de forma clave al desarrollo del modelo, mientras se incluía a personas no contribuyentes del laboratorio de modelos pequeños

1 comentarios

 
GN⁺ 2025-07-07
Opiniones de Hacker News
  • Esta postura siente que el autor del texto original muestra una visión algo ingenua. Al principio, el equipo de Ascend (tomando como referencia la NPU 910A de primera generación) tenía un rendimiento inferior al de Nvidia, y eso era un resultado natural. La gerencia apoyó al equipo que seguía una alternativa basada en GPU que podía comercializarse de inmediato, y la política interna consolidó esa dirección. El equipo de Ascend finalmente logró resolver los problemas técnicos, pero muchos miembros terminaron agotados o se fueron a otras empresas chinas de IA debido al trato injusto, el sesgo burocrático y la falta de reconocimiento. HW (probablemente Huawei) ha tenido durante mucho tiempo una estrategia y una cultura de exprimir talento de primer nivel; ya en los 90, las operadoras de telecomunicaciones de la RPC reclutaban talento de Nortel, Siemens y Lucent, pero muchos profesionales chinos acostumbrados a una cultura laboral occidental se agotaban al no poder adaptarse a la cultura real de las empresas chinas. Aun así, HW terminó dominando la industria con una cultura de trabajo agresiva. Ahora, tras las sanciones, se ha convertido en una empresa estratégica y su valor ha crecido mucho gracias a semiconductores, chips nacionales e IA. En el entorno internacional actual, HW está en posición de hacer lo que sea necesario para dominar el mercado. A partir de esta carta de renuncia, parece que HW logró llevar Ascend a un nivel funcional simplemente volcando suficiente talento, y existe la posibilidad de que siga invirtiendo talento hasta competir con Nvidia. Tanto el autor como la mayoría de los trabajadores tienen la intuición de que es esencial ofrecer una compensación justa y buenas condiciones laborales. Pero durante los últimos 30 años, HW ha estado pagando sueldos enormes a muchísimas personas brillantes —incluidos patriotas— para resolver problemas, empujándolas hasta romperlas, y así ha venido ganando
  • Los LLM son estructuralmente incompatibles con el copyright. Si ya puedes entrenar con datos ajenos sin pagar un centavo, entonces la lógica lleva a que copiar también sea libre. Se ve como un efecto búmeran de la copia
    • Ingenuamente parecen incompatibles, pero la idea es que los abogados de algún modo encontrarán la forma de legalizarlo
  • En el pasado, las editoriales de mapas insertaban callejones falsos para detectar fácilmente infracciones de copyright. Da curiosidad si algo así podría aplicarse también a los LLM
    • Cuando trabajaban en Malwarebytes, sospechaban que IOBit estaba robando su base de datos. Había evidencia clara, pero para que incluso el público general pudiera entenderlo fácilmente, crearon un programa nuevo que existía solo en una sola máquina y añadieron su firma a la base de datos. Ese programa era un archivo no malicioso que en la práctica no podía distribuirse; cuando la otra parte lo agregó a su base, lo publicaron en el blog y causó un gran revuelo. Caso relacionado: robo de IOBit
    • Un caso clásico es introducir deliberadamente defectos minúsculos e inocuos o anomalías en chips de computadora. Muchos productos fabricados en China son resultado de ingeniería inversa de otras compañías como TI, así que tienen muchos de esos defectos. Incluso dentro de China se hacen esto entre ellos. Se percibe como el mismo tipo de atajo tramposo
    • He visto un ejemplo de proyecto llamado OML 1.0: Fingerprinting, una herramienta que inserta huellas en modelos para identificar la propiedad de un LLM y evitar usos no autorizados
    • Hubo un caso en que el youtuber Jay Foreman hizo un video sobre los callejones falsos en los mapas
    • En el texto original de denuncia en chino aparecía lo siguiente: les sorprendió que el análisis de Honestagi mostrara una similitud tan alta pese a tratarse de un modelo sometido a un entrenamiento adicional muy prolongado. La cantidad de cómputo invertida para “lavar” los parámetros de ese modelo era suficiente para crear desde cero otro modelo de la misma categoría. Según colegas, también intentaron varias cosas, como entrenarlo deliberadamente con datos contaminados para borrar la marca de agua de Qwen. Este método quedará como un caso sin precedentes en el estudio del linaje de modelos y podría servir de ejemplo al validar nuevas metodologías de investigación en el futuro
  • Apple presentó un LLM basado en Qwen2.5-Coder-7B pero incorporando ideas propias. El cambio principal es que se entrenó de forma personalizada con ejemplos de código de Apple, y si se sube la temperatura puede generar múltiples bloques de código sin respetar el orden. Artículos relacionados: noticia sobre el LLM de Apple discusión en HN
  • Énfasis chino en la eficiencia. La opinión es que Occidente está atado por leyes de copyright del pasado
  • Es un informe muy humano y honesto. Muestra el caos interno de una gran empresa y una estructura donde la gerencia presiona de forma que favorece más al equipo deshonesto. El autor ya dejó la empresa y se le evalúa como una buena persona
    • En realidad, este informe debe leerse en el contexto de otras cartas de renuncia que han aparecido recientemente en China. La publicación de renuncia de un veterano de Alibaba con 15 años también criticaba que el deterioro de la cultura corporativa era la causa del debilitamiento competitivo y del fracaso de nuevos productos. Los puntos centrales del informe son: 1. falsedades a nivel nacional sobre las capacidades de Huawei 2. falsedades dirigidas a clientes que pagan 3. la realidad de un sistema de gestión obsesionado con los KPI donde la manipulación de métricas de desempeño es tolerada o incluso incentivada de hecho (este punto, junto con los ideales del autor y su pérdida de confianza, es el núcleo del informe)
  • En la frase “el sábado era básicamente un día laboral, pero a veces había una hora del té por la tarde o incluso platillos de camarón”, se percibe cierta sensibilidad poética. Da curiosidad si hay alguna razón especial para que sirvieran cangrejo de río en ese contexto
    • Se especula que “aunque se trabajaba los sábados, de vez en cuando daban botanas, y quizá el cangrejo de río simplemente era popular, o tal vez se trate de una mala traducción”
  • La descripción organizacional “nosotros estábamos bajo el proyecto del ‘Cuarto Ejército de Campaña’, el LLM de lenguaje central era la 4.ª brigada y el grupo de modelos pequeños de Wang Yunhe era la 16.ª brigada” le resultó extraña a algunos. Se preguntan si realmente era una organización afiliada al ejército del Partido Comunista
    • La opinión es que el verdadero Cuarto Ejército de Campaña dejó de existir después de 1955, así que probablemente el nombre siguió usándose como nombre clave del proyecto de LLM
    • Se menciona la cultura corporativa militarizada de Huawei. Incluso la orientación de los nuevos empleados se opera como una ceremonia de graduación de entrenamiento militar. Referencia: cultura militarizada de Huawei
  • Se plantea la pregunta de quién creó realmente el modelo primitivo original
  • Hubo un caso anterior en el que un miembro de Huawei Lab fue despedido por sabotear de hecho el entrenamiento de un modelo, y hay quien sospecha que podría ser la misma persona de esta denuncia
    • Probablemente el caso mencionado sea el del pasante de ByteDance despedido por insertar código malicioso en modelos de IA. Artículo relacionado: bytedance-intern-fired