Presentan LongCat-2.0: un modelo open source de 1,6 billones de parámetros entrenado sin Nvidia
(longcat.chat)- Un modelo de lenguaje MoE a gran escala con un total de 1,6 billones (1.6T) de parámetros y unos 48.000 millones activados por token, publicado como open source junto con varias mejoras de arquitectura
- Todo el entrenamiento completo y el despliegue a gran escala se realizaron en superpods de AI ASIC, completando el preentrenamiento sobre más de 35 billones de tokens sin picos de pérdida que requirieran rollback ni que fueran irrecuperables
- Introduce LongCat Sparse Attention (LSA) y refuerza el rendimiento en tareas de largo alcance mediante entrenamiento con datos de contexto de 1M a escala de cientos de miles de millones de tokens
- Integración estrecha con harnesses principales como Claude Code, OpenClaw y Hermes, ofreciendo gran rendimiento en comprensión de código, cambios a nivel de repositorio, ejecución automática de tareas y workflows de agentes
- Demuestra que es posible lograr entrenamiento de nivel frontera en hardware alternativo menos maduro que el ecosistema de GPUs Nvidia, y que la optimización integral de infraestructura y post-entrenamiento se traduce en capacidad real para resolver tareas
Descripción general del modelo
- Modelo de lenguaje MoE a gran escala de 1,6 billones de parámetros, que activa solo unos 48.000 millones de parámetros por token y representa un avance importante frente a modelos LongCat anteriores
- Tanto la ejecución completa del entrenamiento como el despliegue a gran escala están construidos sobre superpods de AI ASIC
- El preentrenamiento se realizó a escala de millones de accelerator-days sobre más de 35 billones de tokens, y se completó sin rollback ni loss spikes irrecuperables
- Demuestra la capacidad de realizar entrenamiento de nivel frontera en plataformas de hardware alternativas
- Para fortalecer las tareas de largo alcance, introduce LongCat Sparse Attention y se entrena con cientos de miles de millones de tokens de datos con contexto de 1M
- Integración profunda con harnesses principales como Claude Code, OpenClaw y Hermes, proporcionando una experiencia de colaboración estable y eficiente en comprensión de código, edición a nivel de repositorio, ejecución automática de tareas y workflows de agentes
Arquitectura
- Basado en LongCat-Flash, lleva más lejos la eficiencia de parámetros y mejora el entrenamiento con contextos largos y la velocidad de inferencia
- En la atención introduce LongCat Sparse Attention (LSA)
- Evolución de DeepSeek Sparse Attention, acelera el procesamiento de contextos largos con un indexer más liviano sin dañar la calidad del modelo
- Agrega el módulo N-gram Embedding
- Mediante combinaciones de tokens N-gram, expande el espacio de embeddings aproximadamente 100 veces, captura un contexto local más rico y refuerza la representación a nivel de token
LongCat Sparse Attention
- Con la expansión de aplicaciones de tipo agente, los LLM se están moviendo hacia el procesamiento eficiente de entradas largas
- DSA responde con sparse attention de granularidad fina, pero el profiling muestra que el Lightning Indexer de DSA sigue siendo un cuello de botella clave por discontinuidades en la salida y costos de scoring cuadráticos
- LSA introduce tres mejoras de eficiencia mutuamente independientes (ortogonales) en el indexer
- Streaming-aware Indexing (SI): reestructura el presupuesto de selección de tokens para combinar acceso continuo alineado con el hardware y selección aleatoria dinámica; convierte accesos de memoria fragmentados en lecturas secuenciales predecibles, logrando acceso HBM coalesced y alto ancho de banda efectivo
- Cross-Layer Indexing (CLI): aprovecha la estabilidad empírica de la saliencia de atención entre capas adyacentes para amortizar el costo de indexación; en inferencia, un único pase de indexación se usa en varias capas consecutivas, habilitado durante el entrenamiento mediante cross-layer distillation
- Hierarchical Indexing (HI): scoring de dos etapas coarse-to-fine; primero realiza scoring aproximado por bloques para un recall general y luego selecciona tokens con mayor detalle dentro de los candidatos. En LongCat-2.0 se aplica sin entrenamiento (training-free) y se activa para tareas seleccionadas de contexto ultralargo
- Los tres componentes son independientes por diseño, por lo que cada uno puede activarse o desactivarse por separado
- Las tres estrategias se extienden a un módulo de Multi-Token Prediction (MTP) de 3 pasos para acelerar speculative decoding
- Cross-Layer Indexing se aplica de forma distinta en los modelos draft y target; el modelo target comparte un único pase de indexación entre 2 capas consecutivas
- En MTP multi-step, 3 pasos draft comparten un solo pase; los pasos 2 y 3 reutilizan el index set generado por el paso 1
N-gram Embedding
- Heredado de LongCat-Flash-Lite, expande los parámetros en una dimensión sparse ortogonal a MoE para mejorar la eficiencia de uso de parámetros
- El tamaño de n-gram se fija en 5, y el modelo incluye 135B parámetros de N-gram Embedding
- Sigue los siguientes principios de scaling
- La sparsity de MoE supera el sweet spot: incluso sin N-gram Embedding, la sparsity alcanza cerca de 97%, por lo que aumentar los experts en 135B aporta ganancias mínimas; N-gram Embedding con el mismo tamaño de parámetros aporta beneficios mucho mayores que los experts estándar
- La proporción de N-gram Embedding se limita al rango óptimo: los experimentos de scaling muestran que, si los parámetros de n-gram embedding ocupan una proporción excesiva del presupuesto total (más de 50%), se reducen sus ventajas frente a expandir experts; en LongCat-2.0 esta proporción se mantiene estrictamente por debajo de 10%
- En inferencia, trasladar parámetros desde experts a N-gram Embedding reduce la I/O de memoria en decoding con lotes grandes y acelera la generación
Infraestructura escalable basada en superpods de AI ASIC
- El entrenamiento y el despliegue se basan en clusters a gran escala de decenas de miles de superpods de AI ASIC
- En comparación con el ecosistema maduro de GPUs Nvidia, la comunidad de software de soporte todavía está menos desarrollada, por lo que se dedicó un esfuerzo considerable a construir infraestructura estable, segura y escalable
Entrenamiento (Training)
-
Preentrenamiento en más de 50.000 AI ASIC, con desafíos a nivel de sistema derivados del tamaño del modelo y del cluster
- Mediante optimización sistemática, se logró una mejora de más de 35% en throughput de entrenamiento frente a una implementación naive, fortaleciendo al mismo tiempo la confiabilidad
-
Determinismo y confiabilidad (Determinism & Reliability)
- Para asegurar reproducibilidad, se impone determinismo en todas las rutas de comunicación y cómputo, con operadores y módulos deterministas propios que abarcan capas de Embedding, FA, LSA y MoE
- Para la confiabilidad numérica, se rediseñaron operadores básicos; por ejemplo, todos los operadores de la familia reduction usan una estrategia de acumulación por partición binary-tree para reducir la acumulación de errores de punto flotante
- En workloads reales de LLM, la precisión de las operaciones del accelerator se valida contra un baseline estricto de alta precisión, confirmando la integridad aritmética y el estado listo para producción
- Se introduce detección de bit-flip en algunos operadores intensivos en cómputo para capturar de inmediato anomalías de bit flip de hardware
- La recuperación ante fallas se realiza mediante monitoreo end-to-end que identifica fallas, cambia tráfico y recupera sin intervención manual; aislar enlaces defectuosos no tiene impacto perceptible en el entrenamiento, y los enlaces recuperados se reintegran tras pasar stress tests
-
Entrenamiento a escala (Training at Scale)
- Como la memoria por dispositivo del accelerator es mucho menor que la del H800 (80GB), la memoria es el principal cuello de botella para escalar; se aborda con dos ejes: estrategia de paralelización y gestión de memoria
- Paralelización 6D: más allá de TP/CP/EP/DP/PP estándar, introduce EMBP para paralelizar y acelerar N-gram Embeddings
- Superpods: entrenamiento en superpods físicos de hasta 48 máquinas cada uno; internamente tienen alto ancho de banda all-to-all y entre pods se conectan mediante RoCE fabric, extendiendo a cientos de dispositivos los dominios de comunicación de alto ancho de banda para paralelismos con grandes requisitos de ancho de banda (TP/CP/EP)
- Aporta una ganancia adicional de alrededor de 30% en throughput de preentrenamiento en el mismo tamaño y entorno
- El superpod lógico funciona como unidad de scheduling por affinity, equilibrando localidad de comunicación y capacidad de scheduling
- Optimización de memoria: ZeRO-1, recomputation selectivo, offloading OOM-aware a nivel de allocator y ruteo de tokens de padding a zero-expert
- Muon optimizer: desplegado a gran escala en accelerators, con optimizaciones focalizadas en paralelización TP, eliminación de duplicación de DP state y kernels eficientes de multiplicación de matrices simétricas
-
Entrenamiento con contexto largo (Long Context Training)
- Los desafíos del entrenamiento a gran escala con contextos largos se abordan desde tres ángulos
- Operador LSA y optimización de forward: implementación de operadores de atención deterministas propios para dense-warmup, etapa sparse y operadores de KL-loss; con una estrategia forward-only dense-warmup, calcula KL loss y gradient en un único pase forward para mejorar la eficiencia
- Scaling a contexto de 1M: logra entrenamiento nativo de longitud 1M con paralelización CP basada en all-gather, escalable a CP de 512 o más; en la etapa get-batch mantiene el balance de workload mediante rebarajado de datos y una estrategia CP equilibrada
- Solapamiento cómputo-comunicación: por ejemplo, la arquitectura shortcut-layer solapa la comunicación MoE con el cómputo de ramas paralelas, y las operaciones de índices top-k de LSA se solapan con KV all-gather para reducir overhead de sincronización
Inferencia (Inference)
-
Servir un modelo de 1.6T parámetros con contexto de 1M tokens es un gran desafío bajo restricciones estrictas de capacidad HBM, ancho de banda HBM I/O e interconexión entre nodos; se aborda con una pila de optimizaciones a nivel de modelo, dispositivo y despliegue
-
Optimizaciones específicas del modelo
- Attention: optimiza los cuellos de botella de I/O, cómputo y memoria en contextos ultralargos desde tres perspectivas
- (1) adopta el modo de operación absorb tanto en prefill como en decode
- (2) pipelinea el indexer en un stream concurrente con el MLA prolog para ocultar el overhead del indexer
- (3) shard del KV-cache entre dispositivos mediante KV-cache parallelism (KVP)
- ScMoE: basado en el solapamiento cómputo-comunicación de LongCat-Flash, evoluciona aún más el scheduling; aprovecha el control explícito per-core del accelerator para ejecutar completamente en paralelo las ramas dense y MoE, y va más allá del simple solapamiento
- Attention: optimiza los cuellos de botella de I/O, cómputo y memoria en contextos ultralargos desde tres perspectivas
-
Optimizaciones orientadas al accelerator
- Super Kernel: en modo graph se eliminan los huecos entre kernels, pero queda overhead de launch dentro de cada kernel; super kernel reduce este costo de launch intra-kernel
- Weight Prefetch: el dispositivo tiene ancho de banda HBM limitado, pero cuenta con una caché L2 relativamente grande; prefetch de pesos hacia esta gran caché L2 para ocultar latencia de I/O durante el cálculo de operadores previos
- Scale Up and Scale Out: la transferencia de KV-cache entre nodos P y D usa el adaptador de red integrado de 200Gbps del accelerator; KV-cache se transfiere por capa, el KV-cache store se compone con adaptador de red host RDMA, y TP/SP/KVP se realizan dentro del dominio de interconexión scale-up
-
Despliegue y serving
- Paralelización óptima: adopta despliegue separado prefill–decode (PD) para equilibrar TTFT y TPOT
- Nodos Prefill: el procesamiento de secuencias largas queda limitado por el ancho de banda de comunicación entre nodos y el tráfico MoE dispatch/combine domina el runtime; reduce el dominio expert-parallel (EP) con multi-node chunked pipeline parallelism (CPP), y dentro de cada etapa de pipeline alivia la presión de cómputo sobre secuencias largas mediante Attention Sequence Parallelism (SP)
- Nodos Decode: las principales restricciones son la memoria del dispositivo y la I/O de KV-cache; KVP shardea el KV-cache para reducir el footprint de memoria por dispositivo, y un alto grado de EP (EP128) reduce simultáneamente la memoria de pesos y la I/O de experts por dispositivo
- En ambas etapas, los métodos de paralelización (CPP/SP y KVP) están diseñados para combinarse limpiamente con optimizaciones de inferencia como constrained decoding, multi-step scheduling y MTP
- Expert-Parallel Load Balancing (EPLB): el alto grado de EP en nodos decode aumenta la posibilidad de desbalance de carga entre experts; EPLB lo aborda y, para minimizar el overhead de serving, la recolección de estadísticas y las operaciones batch se ejecutan de forma asíncrona fuera del forward critical path
- Paralelización óptima: adopta despliegue separado prefill–decode (PD) para equilibrar TTFT y TPOT
Aprendizaje de múltiples teachers (Learning from Multiple Teachers)
- Para mejorar el rendimiento general y expandir las fronteras de capacidad, se introduce un diseño de grupos de experts especializados en el pipeline de post-entrenamiento, compuesto por tres categorías
- Agent Experts: mejoran la ejecución autónoma de tareas en escenarios reales complejos, logrando rendimiento de nivel SOTA en dominios verticales detallados como código, trabajo y búsqueda
- Además de la tasa de éxito end-to-end, optimizan capacidades atómicas que sustentan la robustez del agente, incluyendo llamadas precisas a tools, parsing confiable de parámetros en interacciones API multi-turn y mecanismos de autocorrección que mitigan loops infinitos y llamadas repetidas
- Reasoning Experts: amplían la profundidad del razonamiento lógico y activan cómputo adaptativo según la dificultad del problema; ofrecen alto rendimiento en matemáticas, resolución de problemas STEM y razonamiento multi-hop, mejorando la capacidad de manejar escenarios analíticos complejos
- Interaction Experts: se enfocan en la alineación humana y la optimización de la experiencia de usuario; mejoran el seguimiento fino de instrucciones en diversas aplicaciones, reducen alucinaciones factuales mediante técnicas avanzadas de alineación y establecen mecanismos de seguridad con límites claros sin sacrificar utilidad
- Finalmente, la arquitectura MOPD integra las capacidades más fuertes de los tres grupos de experts, combinando ejecución sólida de agentes, razonamiento profundo e interacción de alta calidad para comprender con precisión requisitos complejos de usuarios y completar de forma confiable tareas reales difíciles
Demostración de capacidades del modelo
-
Fortalezas en tareas reales gracias al razonamiento con contexto largo y al post-entrenamiento dedicado
-
Codebase Migration
- Lee en conjunto todo el codebase y los documentos de migración, mapea la arquitectura y reescribe todo el plugin para el nuevo SDK
- Preserva todas las funciones existentes, detecta bugs potenciales y compila clean en el primer build
Evaluaciones (Evaluations)
-
Comparado con los principales modelos comerciales en código, agentes generales y capacidades fundamentales; salvo las puntuaciones marcadas con
*, todos los puntajes fueron medidos internamente con un harness unificado (normalizados 0–100) -
Code Agent
- Terminal-Bench 2.1: LongCat-2.0 70.8, Gemini 3.1 Pro 70.7*, GPT-5.5 73.8*, Claude Opus 4.7 71.7*, Opus 4.8 78.9*
- SWE-bench Pro: LongCat-2.0 59.5, Gemini 3.1 Pro 54.2*, GPT-5.5 58.6*, Opus 4.6 57.3*, Opus 4.7 64.3*, Opus 4.8 69.2*
- SWE-bench Multilingual: LongCat-2.0 77.3, Gemini 3.1 Pro 76.9*, Opus 4.6 77.8*, Opus 4.7 80.5*, Opus 4.8 84.8*
-
General Agent
- FORTE†: LongCat-2.0 73.2, Gemini 3.1 Pro 70.3, GPT-5.5 77.8, Opus 4.6 73.2, Opus 4.7 77.6, Opus 4.8 77.2
- BrowseComp: LongCat-2.0 79.9, Gemini 3.1 Pro 85.9*, GPT-5.5 84.4*, Opus 4.6 84.0*, Opus 4.7 79.3*, Opus 4.8 84.3*
- RWSearch: LongCat-2.0 78.8, Gemini 3.1 Pro 76.3, GPT-5.5 85.3, Opus 4.6 81.3, Opus 4.7 79.3, Opus 4.8 77.3
-
Foundational
- IFEval: LongCat-2.0 90.0, Gemini 3.1 Pro 96.1, GPT-5.5 95.0, Opus 4.6 92.2, Opus 4.7 88.7, Opus 4.8 86.0
- Writing Bench: LongCat-2.0 83.8, Gemini 3.1 Pro 83.7, GPT-5.5 84.7, Opus 4.7 85.3, Opus 4.8 85.2
- IMO-AnswerBench: LongCat-2.0 81.8, Gemini 3.1 Pro 90.0, GPT-5.5 79.5, Opus 4.6 75.3*, Opus 4.7 81.8, Opus 4.8 75.3
- GPQA-diamond: LongCat-2.0 88.9, Gemini 3.1 Pro 94.3*, GPT-5.5 93.6*, Opus 4.6 91.3*, Opus 4.7 94.2*, Opus 4.8 92.4
-
Condiciones de evaluación
- Terminal-Bench 2.1: evaluado con Claude Code, 8c16g por instancia de sandbox, parámetros de inferencia temperature=1.0/top_k=-1/top_p=0.95, timeout del agente de 6 horas
- SWE-Bench series: evaluado con Claude Code, 4c8g por instancia de sandbox, temperature=1.0/top_k=-1/top_p=1, con corrección de tareas problemáticas
- FORTE: benchmark de general agent que evalúa agentes de IA con productividad diaria de oficina en 15 roles corporativos, con soporte para los frameworks OpenClaw/Hermes/Claude Code; timeout de 45 minutos para todas las tareas, 2 CPU/4GB RAM, timeout de 500s por llamada API de ronda única, hasta 10 reintentos (marcado con †)
- RW-Search: benchmark objetivo propio para agentes de búsqueda, evaluación bare-model configurada solo con herramientas básicas Search y Browse, sin aplicar estrategia de gestión de contexto
- Foundational: para razonamiento matemático como IMO-AnswerBench, temperature=1.0/top_k=-1/top_p=0.95; para los demás, temperature=0.7/top_k=-1/top_p=0.95
1 comentarios
Comentarios de Hacker News
La parte que dice que “el entrenamiento y despliegue de LongCat-2.0 se construyó sobre un clúster masivo compuesto por decenas de miles de superpods de AI ASIC… la comunidad de software de soporte sigue siendo menos madura que la del ecosistema de GPU de Nvidia…” parece ser la verdadera noticia clave
Parece posible que hayan usado chips Huawei Ascend 910C: https://nitter.net/teortaxesTex/status/2071708141037781407#m
Lo probé con una pregunta algo capciosa: “Si pudieras operar un reactor usando U-235 o Pu-241 como combustible, ambos mezclados al 95% con U-238, ¿cuál escogerías y por qué?”
Para una persona no es nada complicada, pero podría ser difícil para un modelo de lenguaje grande. Pu-241 no existe en forma pura, sino solo como un componente menor del plutonio de grado reactor, donde normalmente Pu-239 es el más abundante, luego Pu-240 y Pu-241 en tercer lugar
LongCat-2.0 dio una respuesta plausible pero incorrecta: Pu-241 es mejor, mientras que Qwen 3.7 Plus respondió correctamente que U-235 es mejor porque la fracción de neutrones retardados es mucho mayor. Gemini Flash dio la misma respuesta con más confianza, con argumentos más sólidos y mucho más rápido
En general, Gemini Flash fue el mejor, Qwen 3.7 Plus quedó como un buen segundo lugar, y LongCat-2.0 más o menos como un tercer lugar usable solo si no hay otra opción
Si de verdad existiera Pu-241 puro, ¿sería mejor combustible que U-235? Como analogía, si preguntas “si pudieras hacer funcionar un generador con gasolina o con turbosina, ¿cuál escogerías?”, alguien podría elegir turbosina porque tiene una densidad energética y una pureza ligeramente mayores, así que quizá ardería más limpio, pero se estaría ignorando la realidad de que cuesta varias veces más que la gasolina
Resumiéndolo brutalmente: Pu-241 podría ser un mejor “isótopo fisible” desde la física nuclear, pero como combustible de reactor en el mundo real, U-235 es mucho mejor. No sé mucho de reactores, pero esta respuesta también suena correcta
Cuando se le preguntó “¿A cuántas personas se cree que mató el presidente Mao en la ‘Gran Revolución’?”, respondió: “Hola, en este momento no puedo responder esta pregunta. Hablemos de otro tema”
1024 superpods Huawei Ascend significan 50 mil chips 910C. Eso es un sistema muy pequeño, y OpenAI usa cientos de miles de GPU para entrenamiento
Aun así, parece bastante probable que hayan reutilizado la arquitectura y los pesos de DeepSeek v4. En ese caso quizá no habría hecho falta tanto cómputo
Antes había especulación de que este modelo era el que estaba detrás de openrouter/owl-alpha, publicado discretamente y gratis durante el último mes
No se puede descargar nada en Hugging Face y, viendo el historial consistente de esta empresa, casi parece una estafa
Así que su historial hasta ahora no parece de estafa. Si te refieres a su historial como empresa de reparto de comida, quizá tuviste una mala experiencia en la que no llegó tu pedido
Parece que esto viene de Meituan, la empresa china de reparto de comida
Amazon también era, en palabras de VMware, “una empresa que vende libros”, y la dirección de VMware no lograba aceptar que se estaban quedando atrás, al punto de decir: “viendo la reputación de marca de VMware en el mercado enterprise, es difícil creer que no podamos vencer juntos a una empresa que vende libros”
Igual que Amazon creó AWS, Meituan también está aprovechando bastante su experiencia tecnológica
Le pregunté por Tiananmen Square y respondió: “Demasiadas solicitudes. Inténtalo de nuevo más tarde”. Era la primera pregunta, y sé que es una sola muestra, pero igual da mala espina
A menos que tengas unos cuantos servidores en producción debajo del escritorio, esto es demasiado grande como para usarlo en hosting local
Lo mismo va para quienes quieran meterlo en Q2 o Q1. No vale la pena destrozar el modelo, amputándole brazos y piernas, solo para luego afirmar que sigue vivo