Lecciones obtenidas desde dentro de los laboratorios de IA de China
(interconnects.ai)- Un reporte de campo basado en visitas directas a los principales laboratorios de IA de China y conversaciones con investigadores, que analiza las diferencias culturales del ecosistema de IA entre China y Estados Unidos y cómo afectan el desarrollo de modelos
- Los investigadores chinos muestran una tendencia cultural a enfocarse en optimizar la calidad del modelo final antes que en el prestigio individual, y una parte importante de los contribuyentes clave son estudiantes activos
- Las empresas chinas de IA tienen un fuerte sentido de propiedad por controlar su propia pila tecnológica en lugar de comprar servicios externos, y su publicación como código abierto también se basa en criterios prácticos
- La mayoría de los desarrolladores de IA en China usan Claude, y es posible que la demanda empresarial de IA siga una trayectoria más parecida a la del mercado de nube que a la de SaaS
- Los ecosistemas de IA de Estados Unidos y China operan de maneras estructuralmente distintas, y mapear de forma simple la industria china de IA usando marcos occidentales puede provocar un error de categoría
La forma de pensar de los investigadores chinos
- Las empresas chinas que desarrollan LLM combinan una larga tradición cultural en educación y trabajo con diferencias sutiles en la operación de empresas tecnológicas, lo que les da una estructura óptima como fast-followers
- Construir un LLM de punta hoy depende de trabajo minucioso en toda la pila, como datos, detalles de arquitectura e implementación de algoritmos de RL, y es un proceso complejo donde los logros individuales deben ceder ante la optimización multipropósito del modelo completo
- Los investigadores estadounidenses tienen una cultura más marcada de promocionar activamente su trabajo, y la búsqueda de prestigio como "científico líder en IA" genera conflictos dentro de las organizaciones
- Circula ampliamente el rumor de que la organización de Llama colapsó por el peso de esos intereses políticos
- También hay historias de algunos laboratorios donde tuvieron que compensar a investigadores estrella que se quejaban de que sus ideas no se reflejaban en el modelo final
- Una parte importante de los contribuyentes clave en los laboratorios chinos son estudiantes activos, y los propios laboratorios son organizaciones muy jóvenes
- Esto se parece a la estructura de Ai2, donde los estudiantes son tratados como colegas e integrados directamente en los equipos de LLM
- En cambio, OpenAI, Anthropic y Cursor en EE. UU. no ofrecen pasantías, y existe el riesgo de que las pasantías relacionadas con Gemini en Google queden separadas del trabajo real
- Factores concretos por los que estas diferencias culturales mejoran la capacidad de construir modelos:
- Alta disposición a hacer trabajo poco visible para mejorar el modelo final
- El nuevo talento en IA no está atado a ciclos previos de hype y se adapta más rápido a las tecnologías modernas
- Menos ego, lo que vuelve a la estructura organizacional algo más escalable y menos propensa al gaming del sistema
- Un abundante pool de talento adecuado para resolver problemas ya validados en otros lugares
- Estas ventajas contrastan con el estereotipo conocido de que los investigadores chinos producen menos investigación académica creativa, pionera y estilo 0-to-1
- Los líderes de laboratorios académicos están intentando cultivar una cultura de investigación más ambiciosa
- Algunos líderes técnicos se muestran escépticos y dicen que rediseñar los sistemas de educación e incentivos es una tarea demasiado grande para el equilibrio económico actual
Características de los investigadores estudiantes
- En China también está ocurriendo una fuga de cerebros similar a la de EE. UU., y muchos que antes contemplaban la academia ahora tienden a quedarse en la industria
- Un investigador comentó que le interesaba ser profesor, pero que "la enseñanza ya la resolvió el LLM — ¿por qué un estudiante me preguntaría a mí?"
- Los estudiantes tienen la ventaja de acercarse a los LLM sin prejuicios previos
- En los últimos años, el paradigma central de los LLM ha cambiado de escalado con MoE → escalado con RL → uso de agentes
- Hacer bien todo eso exige absorber rápidamente un amplio contexto de literatura y de la pila tecnológica, y los estudiantes están acostumbrados a este trabajo y lo hacen con entusiasmo
- Los estudiantes investigadores chinos participan menos en discursos filosóficos y son muy directos
- Hay muchos menos investigadores chinos que estadounidenses con opiniones elaboradas sobre la economía de los modelos o los riesgos sociales de largo plazo
- Un investigador citó la famosa premisa de Dan Wang: "China está dirigida por ingenieros, y Estados Unidos por abogados"
- En China no existe una vía que impulse sistemáticamente el estrellato de científicos a través de megapodcasts masivos como los de Dwarkesh o Lex
- En preguntas sobre la incertidumbre económica causada por la IA, cuestiones más allá de AGI o debates morales sobre el comportamiento de los modelos, los científicos chinos reflejan rasgos de haber crecido en un sistema donde no se incentivan las opiniones sobre el debate y la estructura social
El ambiente en Beijing y en el ecosistema chino de IA
- Beijing se siente muy parecida al Bay Area, con laboratorios rivales ubicados a distancia caminable o de trayectos cortos
- En 36 horas se visitaron Z.ai, Moonshot AI, la Universidad de Tsinghua, Meituan, Xiaomi y 01.ai
- Es fácil moverse con Didi, y en China muchas veces a los vehículos XL les asignan minivanes eléctricas con sillones de masaje
- La guerra por el talento entre investigadores es muy similar a la de EE. UU.; es común que cambien de trabajo y el criterio de elección es el lugar con mejor vibra en ese momento
- La comunidad china de LLM se siente más como un ecosistema que como tribus en competencia
- Todos los laboratorios chinos vigilan a ByteDance, que tiene el popular modelo Doubao
- ByteDance es el único laboratorio fronterizo cerrado de China
- Todos los laboratorios respetan a DeepSeek como el líder técnico con mejor intuición de investigación en ejecución
- Esto contrasta con cómo, al reunirse informalmente con miembros de laboratorios en EE. UU., rápidamente saltan chispas
- Lo más impresionante de la humildad de los investigadores chinos es su actitud indiferente ante el lado del negocio, diciendo que "no es su problema"
- En EE. UU., todos están obsesionados con tendencias industriales a nivel ecosistema como vendedores de datos, cómputo o financiamiento
Diferencias y similitudes de la industria china de IA
- Hoy construir modelos de IA ya no es solo el resultado de ingeniería de grandes investigadores, sino una actividad compuesta donde se combinan construcción, despliegue, financiamiento y adopción
- Seis diferencias principales frente al ecosistema occidental:
-
1. Señales tempranas de demanda interna de IA
- Existe la hipótesis de que las empresas chinas no pagan por software, por lo que no se formará un gran mercado de inferencia
- Eso históricamente solo ha sido cierto para el muy pequeño ecosistema SaaS en China, mientras que el país sí tiene un gran mercado de nube
- La gran pregunta no resuelta es si el gasto empresarial en IA seguirá al mercado SaaS (pequeño) o al mercado de nube (fundamental)
- En general, la IA parece seguir una trayectoria más cercana a la nube, y nadie mostró una preocupación seria de que no fuera a crecer un mercado alrededor de nuevas herramientas
-
2. La mayoría de los desarrolladores usan Claude
- La mayoría de los desarrolladores de IA en China están fascinados con Claude y con cómo cambió la forma de construir software
- Claude se usa a pesar de estar nominalmente prohibido en China
- Algunos investigadores mencionaron herramientas propias como Kimi o GLM CLI, pero todos hablaron de usar Claude
- Hubo sorprendentemente muy pocas menciones a Codex, que está ganando popularidad rápidamente en el Bay Area
- Aunque históricamente China haya sido reacia a comprar software, esto no da la impresión de que no vaya a haber un gran aumento en la demanda de inferencia
-
3. Sentido de propiedad tecnológica
- La cultura china, combinada con un motor económico muy activo, produce resultados impredecibles
- Muchos modelos de IA reflejan el equilibrio práctico y presente de muchas empresas tecnológicas, más que un plan maestro
- La industria respeta a ByteDance y Alibaba como incumbentes que probablemente ganarán en la mayoría de los mercados gracias a sus amplios recursos
- DeepSeek es un líder técnico respetado, pero está lejos de ser el líder de mercado; marca dirección, pero no tiene la estructura para ganar económicamente
- En Occidente puede sorprender que empresas como Meituan (servicio de entregas) o Ant Group construyan modelos, pero consideran que, si los LLM serán el núcleo de los productos tecnológicos del futuro, necesitan una base sólida
- Ajustar un modelo generalista permite fortalecer la pila con retroalimentación de la comunidad abierta y mantener una versión interna ajustada para sus propios productos
- La mentalidad de "open first" se basa en la practicidad: obtener retroalimentación fuerte sobre el modelo, contribuir a la comunidad open source y reforzar la misión
-
4. El apoyo gubernamental existe, pero su escala no está clara
- A menudo se afirma que el gobierno chino apoya activamente la competencia de LLM abiertos
- El gobierno está descentralizado en varios niveles y no hay un playbook claro sobre qué hace exactamente cada nivel
- Los vecindarios de Beijing compiten por atraer oficinas de empresas tecnológicas
- La "ayuda" ofrecida casi con certeza incluye simplificar trámites burocráticos como permisos, pero no está claro si también abarca atraer talento o incluso contrabando de chips
- Durante la visita hubo varias menciones al interés o ayuda del gobierno, pero hay muy poca información para reportar detalles de forma concluyente
- No hubo ninguna señal de que el nivel más alto del gobierno chino influyera en decisiones técnicas sobre los modelos
-
5. La industria de datos está mucho menos desarrollada
- Dado que se ha oído que Anthropic y OpenAI gastan más de 10 millones de dólares en un solo entorno y cientos de millones al año en expandir la frontera de RL, se buscó confirmar si los laboratorios chinos compran esos mismos entornos a empresas estadounidenses o reciben apoyo del ecosistema local
- Más que inexistente, la industria de datos es relativamente de menor calidad, por lo que muchas veces conviene más construir internamente entornos o datos
- Los investigadores invierten mucho tiempo en construir por sí mismos entornos de entrenamiento para RL
- Grandes empresas como ByteDance y Alibaba tienen equipos internos de etiquetado de datos para apoyar esto
- Todo esto refleja la mentalidad del punto anterior de construir en vez de comprar
-
6. Demanda urgente de chips de Nvidia
- El cómputo de Nvidia es el gold standard del entrenamiento, y todos los laboratorios ven su progreso limitado por la escasez
- Si hubiera oferta, claramente comprarían
- Otros aceleradores, incluido Huawei, reciben evaluaciones positivas para inferencia, y muchos laboratorios tienen acceso a chips de Huawei
- Estos puntos dibujan un ecosistema de IA muy distinto, donde mapear rápidamente cómo operan los laboratorios occidentales sobre China puede provocar errores de categoría
- La pregunta clave es si estos ecosistemas distintos producirán tipos de modelos significativamente diferentes, o si los modelos chinos siempre se describirán como versiones de hace 3 a 9 meses de los modelos fronterizos de EE. UU.
Equilibrio global
- China no es un lugar que pueda expresarse con reglas o recetas; tiene una dinámica y una química muy distintas
- Su cultura es muy antigua y profunda, y está completamente entrelazada con la forma en que construye tecnología localmente
- La estructura actual de poder en EE. UU. usa su visión sobre China como dispositivo central de toma de decisiones, pero China tiene cualidades e instintos muy difíciles de modelar desde la toma de decisiones occidental
- Incluso al preguntar directamente por qué estos laboratorios publican sus mejores modelos en abierto, la intersección entre sentido de propiedad y apoyo genuino al ecosistema sigue siendo difícil de conectar
- Casi todas las grandes tecnológicas chinas están construyendo su propio LLM generalista
- Meituan (servicio de entregas), Xiaomi (empresa de tecnología de consumo muy amplia) y otras publican modelos de pesos abiertos
- Sus equivalentes en EE. UU. simplemente comprarían el servicio
- Estas empresas construyen LLM no para seguir una moda, sino por un deseo profundo y fundamental de controlar su propia pila y desarrollar la tecnología más importante de la era
- La humanidad, el encanto y la calidez genuina de los investigadores chinos hicieron de esto una experiencia muy humana
- Las conversaciones geopolíticas duras que son comunes en EE. UU. no parecían haberlos tocado en absoluto
- Si el ecosistema abierto prospera globalmente, se puede construir una IA más segura, accesible y útil; la pregunta actual es si los laboratorios estadounidenses tomarán medidas para ocupar esa posición de liderazgo
- Siguen circulando más rumores sobre órdenes ejecutivas que afectarían a los modelos abiertos, lo que podría complicar aún más la sinergia entre el liderazgo de EE. UU. y el ecosistema global
8 comentarios
A veces me preocupa que una fijación excesiva e irracional con China
no esté creando al monstruo que llevamos dentro.
Como cuando uno de los pretextos para que los nazis llegaran al poder fue el anticomunismo.
"China está dirigida por ingenieros" -> "China está dirigida por el Partido Comunista"
¡Solo una China...!
Esta parte me da muchísima envidia
Creo que es bueno que los modelos se publiquen como open source.
Me hace pensar si, así como en Japón se evitan los productos coreanos y hay mucha gente hostil hacia Corea,
en Corea también evitar los productos chinos y que haya mucha gente hostil hacia China es una especie de tendencia.
Cuanto más veo este tipo de cosas, más siento la grandeza de la nación china.
¿Tiene sentido hablar de la grandeza de una etnia específica...? Si vamos por ese lado, ¿la razón por la que Estados Unidos sigue siendo la superpotencia número uno en IA es porque la “etnia” estadounidense es grandiosa? Por buenos que sean Qwen o DeepSeek, la realidad es que todavía no están al nivel de Anthropic y OpenAI. Aunque China meta todo tipo de espías industriales y le arroje cantidades astronómicas de dinero a la industria de semiconductores, todavía no logra alcanzarlos; ¿eso significa que la etnia china es inferior y que la etnia coreana es grandiosa? No, simplemente es el resultado de la estructura social y del entorno. La idea de elogiar a una etnia específica equivale a aceptar que existen etnias inferiores, y eso no es distinto de una forma de pensar nazi.