Presentan LongCat-2.0: un modelo open source de 1,6 billones de parámetros entrenado sin Nvidia

(longcat.chat)

3 puntos por GN⁺ 6 시간 전 | 1 comentarios | Compartir por WhatsApp

Un modelo de lenguaje MoE a gran escala con un total de 1,6 billones (1.6T) de parámetros y unos 48.000 millones activados por token, publicado como open source junto con varias mejoras de arquitectura
Todo el entrenamiento completo y el despliegue a gran escala se realizaron en superpods de AI ASIC, completando el preentrenamiento sobre más de 35 billones de tokens sin picos de pérdida que requirieran rollback ni que fueran irrecuperables
Introduce LongCat Sparse Attention (LSA) y refuerza el rendimiento en tareas de largo alcance mediante entrenamiento con datos de contexto de 1M a escala de cientos de miles de millones de tokens
Integración estrecha con harnesses principales como Claude Code, OpenClaw y Hermes, ofreciendo gran rendimiento en comprensión de código, cambios a nivel de repositorio, ejecución automática de tareas y workflows de agentes
Demuestra que es posible lograr entrenamiento de nivel frontera en hardware alternativo menos maduro que el ecosistema de GPUs Nvidia, y que la optimización integral de infraestructura y post-entrenamiento se traduce en capacidad real para resolver tareas

Descripción general del modelo

Modelo de lenguaje MoE a gran escala de 1,6 billones de parámetros, que activa solo unos 48.000 millones de parámetros por token y representa un avance importante frente a modelos LongCat anteriores
Tanto la ejecución completa del entrenamiento como el despliegue a gran escala están construidos sobre superpods de AI ASIC
- El preentrenamiento se realizó a escala de millones de accelerator-days sobre más de 35 billones de tokens, y se completó sin rollback ni loss spikes irrecuperables
- Demuestra la capacidad de realizar entrenamiento de nivel frontera en plataformas de hardware alternativas
Para fortalecer las tareas de largo alcance, introduce LongCat Sparse Attention y se entrena con cientos de miles de millones de tokens de datos con contexto de 1M
Integración profunda con harnesses principales como Claude Code, OpenClaw y Hermes, proporcionando una experiencia de colaboración estable y eficiente en comprensión de código, edición a nivel de repositorio, ejecución automática de tareas y workflows de agentes

Arquitectura

Basado en LongCat-Flash, lleva más lejos la eficiencia de parámetros y mejora el entrenamiento con contextos largos y la velocidad de inferencia
En la atención introduce LongCat Sparse Attention (LSA)
- Evolución de DeepSeek Sparse Attention, acelera el procesamiento de contextos largos con un indexer más liviano sin dañar la calidad del modelo
Agrega el módulo N-gram Embedding
- Mediante combinaciones de tokens N-gram, expande el espacio de embeddings aproximadamente 100 veces, captura un contexto local más rico y refuerza la representación a nivel de token

LongCat Sparse Attention

Con la expansión de aplicaciones de tipo agente, los LLM se están moviendo hacia el procesamiento eficiente de entradas largas
- DSA responde con sparse attention de granularidad fina, pero el profiling muestra que el Lightning Indexer de DSA sigue siendo un cuello de botella clave por discontinuidades en la salida y costos de scoring cuadráticos
LSA introduce tres mejoras de eficiencia mutuamente independientes (ortogonales) en el indexer
- Streaming-aware Indexing (SI): reestructura el presupuesto de selección de tokens para combinar acceso continuo alineado con el hardware y selección aleatoria dinámica; convierte accesos de memoria fragmentados en lecturas secuenciales predecibles, logrando acceso HBM coalesced y alto ancho de banda efectivo
- Cross-Layer Indexing (CLI): aprovecha la estabilidad empírica de la saliencia de atención entre capas adyacentes para amortizar el costo de indexación; en inferencia, un único pase de indexación se usa en varias capas consecutivas, habilitado durante el entrenamiento mediante cross-layer distillation
- Hierarchical Indexing (HI): scoring de dos etapas coarse-to-fine; primero realiza scoring aproximado por bloques para un recall general y luego selecciona tokens con mayor detalle dentro de los candidatos. En LongCat-2.0 se aplica sin entrenamiento (training-free) y se activa para tareas seleccionadas de contexto ultralargo
Los tres componentes son independientes por diseño, por lo que cada uno puede activarse o desactivarse por separado
Las tres estrategias se extienden a un módulo de Multi-Token Prediction (MTP) de 3 pasos para acelerar speculative decoding
- Cross-Layer Indexing se aplica de forma distinta en los modelos draft y target; el modelo target comparte un único pase de indexación entre 2 capas consecutivas
- En MTP multi-step, 3 pasos draft comparten un solo pase; los pasos 2 y 3 reutilizan el index set generado por el paso 1

N-gram Embedding

Heredado de LongCat-Flash-Lite, expande los parámetros en una dimensión sparse ortogonal a MoE para mejorar la eficiencia de uso de parámetros
- El tamaño de n-gram se fija en 5, y el modelo incluye 135B parámetros de N-gram Embedding
Sigue los siguientes principios de scaling
- La sparsity de MoE supera el sweet spot: incluso sin N-gram Embedding, la sparsity alcanza cerca de 97%, por lo que aumentar los experts en 135B aporta ganancias mínimas; N-gram Embedding con el mismo tamaño de parámetros aporta beneficios mucho mayores que los experts estándar
- La proporción de N-gram Embedding se limita al rango óptimo: los experimentos de scaling muestran que, si los parámetros de n-gram embedding ocupan una proporción excesiva del presupuesto total (más de 50%), se reducen sus ventajas frente a expandir experts; en LongCat-2.0 esta proporción se mantiene estrictamente por debajo de 10%
En inferencia, trasladar parámetros desde experts a N-gram Embedding reduce la I/O de memoria en decoding con lotes grandes y acelera la generación

Infraestructura escalable basada en superpods de AI ASIC

El entrenamiento y el despliegue se basan en clusters a gran escala de decenas de miles de superpods de AI ASIC
En comparación con el ecosistema maduro de GPUs Nvidia, la comunidad de software de soporte todavía está menos desarrollada, por lo que se dedicó un esfuerzo considerable a construir infraestructura estable, segura y escalable

Entrenamiento (Training)

Preentrenamiento en más de 50.000 AI ASIC, con desafíos a nivel de sistema derivados del tamaño del modelo y del cluster
- Mediante optimización sistemática, se logró una mejora de más de 35% en throughput de entrenamiento frente a una implementación naive, fortaleciendo al mismo tiempo la confiabilidad
Determinismo y confiabilidad (Determinism & Reliability)
- Para asegurar reproducibilidad, se impone determinismo en todas las rutas de comunicación y cómputo, con operadores y módulos deterministas propios que abarcan capas de Embedding, FA, LSA y MoE
- Para la confiabilidad numérica, se rediseñaron operadores básicos; por ejemplo, todos los operadores de la familia reduction usan una estrategia de acumulación por partición binary-tree para reducir la acumulación de errores de punto flotante
  - En workloads reales de LLM, la precisión de las operaciones del accelerator se valida contra un baseline estricto de alta precisión, confirmando la integridad aritmética y el estado listo para producción
  - Se introduce detección de bit-flip en algunos operadores intensivos en cómputo para capturar de inmediato anomalías de bit flip de hardware
- La recuperación ante fallas se realiza mediante monitoreo end-to-end que identifica fallas, cambia tráfico y recupera sin intervención manual; aislar enlaces defectuosos no tiene impacto perceptible en el entrenamiento, y los enlaces recuperados se reintegran tras pasar stress tests
Entrenamiento a escala (Training at Scale)
- Como la memoria por dispositivo del accelerator es mucho menor que la del H800 (80GB), la memoria es el principal cuello de botella para escalar; se aborda con dos ejes: estrategia de paralelización y gestión de memoria
- Paralelización 6D: más allá de TP/CP/EP/DP/PP estándar, introduce EMBP para paralelizar y acelerar N-gram Embeddings
- Superpods: entrenamiento en superpods físicos de hasta 48 máquinas cada uno; internamente tienen alto ancho de banda all-to-all y entre pods se conectan mediante RoCE fabric, extendiendo a cientos de dispositivos los dominios de comunicación de alto ancho de banda para paralelismos con grandes requisitos de ancho de banda (TP/CP/EP)
  - Aporta una ganancia adicional de alrededor de 30% en throughput de preentrenamiento en el mismo tamaño y entorno
  - El superpod lógico funciona como unidad de scheduling por affinity, equilibrando localidad de comunicación y capacidad de scheduling
- Optimización de memoria: ZeRO-1, recomputation selectivo, offloading OOM-aware a nivel de allocator y ruteo de tokens de padding a zero-expert
- Muon optimizer: desplegado a gran escala en accelerators, con optimizaciones focalizadas en paralelización TP, eliminación de duplicación de DP state y kernels eficientes de multiplicación de matrices simétricas
Entrenamiento con contexto largo (Long Context Training)
- Los desafíos del entrenamiento a gran escala con contextos largos se abordan desde tres ángulos
- Operador LSA y optimización de forward: implementación de operadores de atención deterministas propios para dense-warmup, etapa sparse y operadores de KL-loss; con una estrategia forward-only dense-warmup, calcula KL loss y gradient en un único pase forward para mejorar la eficiencia
- Scaling a contexto de 1M: logra entrenamiento nativo de longitud 1M con paralelización CP basada en all-gather, escalable a CP de 512 o más; en la etapa get-batch mantiene el balance de workload mediante rebarajado de datos y una estrategia CP equilibrada
- Solapamiento cómputo-comunicación: por ejemplo, la arquitectura shortcut-layer solapa la comunicación MoE con el cómputo de ramas paralelas, y las operaciones de índices top-k de LSA se solapan con KV all-gather para reducir overhead de sincronización

Inferencia (Inference)

Servir un modelo de 1.6T parámetros con contexto de 1M tokens es un gran desafío bajo restricciones estrictas de capacidad HBM, ancho de banda HBM I/O e interconexión entre nodos; se aborda con una pila de optimizaciones a nivel de modelo, dispositivo y despliegue
Optimizaciones específicas del modelo
- Attention: optimiza los cuellos de botella de I/O, cómputo y memoria en contextos ultralargos desde tres perspectivas
  - (1) adopta el modo de operación absorb tanto en prefill como en decode
  - (2) pipelinea el indexer en un stream concurrente con el MLA prolog para ocultar el overhead del indexer
  - (3) shard del KV-cache entre dispositivos mediante KV-cache parallelism (KVP)
- ScMoE: basado en el solapamiento cómputo-comunicación de LongCat-Flash, evoluciona aún más el scheduling; aprovecha el control explícito per-core del accelerator para ejecutar completamente en paralelo las ramas dense y MoE, y va más allá del simple solapamiento
Optimizaciones orientadas al accelerator
- Super Kernel: en modo graph se eliminan los huecos entre kernels, pero queda overhead de launch dentro de cada kernel; super kernel reduce este costo de launch intra-kernel
- Weight Prefetch: el dispositivo tiene ancho de banda HBM limitado, pero cuenta con una caché L2 relativamente grande; prefetch de pesos hacia esta gran caché L2 para ocultar latencia de I/O durante el cálculo de operadores previos
- Scale Up and Scale Out: la transferencia de KV-cache entre nodos P y D usa el adaptador de red integrado de 200Gbps del accelerator; KV-cache se transfiere por capa, el KV-cache store se compone con adaptador de red host RDMA, y TP/SP/KVP se realizan dentro del dominio de interconexión scale-up
Despliegue y serving
- Paralelización óptima: adopta despliegue separado prefill–decode (PD) para equilibrar TTFT y TPOT
  - Nodos Prefill: el procesamiento de secuencias largas queda limitado por el ancho de banda de comunicación entre nodos y el tráfico MoE dispatch/combine domina el runtime; reduce el dominio expert-parallel (EP) con multi-node chunked pipeline parallelism (CPP), y dentro de cada etapa de pipeline alivia la presión de cómputo sobre secuencias largas mediante Attention Sequence Parallelism (SP)
  - Nodos Decode: las principales restricciones son la memoria del dispositivo y la I/O de KV-cache; KVP shardea el KV-cache para reducir el footprint de memoria por dispositivo, y un alto grado de EP (EP128) reduce simultáneamente la memoria de pesos y la I/O de experts por dispositivo
  - En ambas etapas, los métodos de paralelización (CPP/SP y KVP) están diseñados para combinarse limpiamente con optimizaciones de inferencia como constrained decoding, multi-step scheduling y MTP
- Expert-Parallel Load Balancing (EPLB): el alto grado de EP en nodos decode aumenta la posibilidad de desbalance de carga entre experts; EPLB lo aborda y, para minimizar el overhead de serving, la recolección de estadísticas y las operaciones batch se ejecutan de forma asíncrona fuera del forward critical path

Aprendizaje de múltiples teachers (Learning from Multiple Teachers)

Para mejorar el rendimiento general y expandir las fronteras de capacidad, se introduce un diseño de grupos de experts especializados en el pipeline de post-entrenamiento, compuesto por tres categorías
Agent Experts: mejoran la ejecución autónoma de tareas en escenarios reales complejos, logrando rendimiento de nivel SOTA en dominios verticales detallados como código, trabajo y búsqueda
- Además de la tasa de éxito end-to-end, optimizan capacidades atómicas que sustentan la robustez del agente, incluyendo llamadas precisas a tools, parsing confiable de parámetros en interacciones API multi-turn y mecanismos de autocorrección que mitigan loops infinitos y llamadas repetidas
Reasoning Experts: amplían la profundidad del razonamiento lógico y activan cómputo adaptativo según la dificultad del problema; ofrecen alto rendimiento en matemáticas, resolución de problemas STEM y razonamiento multi-hop, mejorando la capacidad de manejar escenarios analíticos complejos
Interaction Experts: se enfocan en la alineación humana y la optimización de la experiencia de usuario; mejoran el seguimiento fino de instrucciones en diversas aplicaciones, reducen alucinaciones factuales mediante técnicas avanzadas de alineación y establecen mecanismos de seguridad con límites claros sin sacrificar utilidad
Finalmente, la arquitectura MOPD integra las capacidades más fuertes de los tres grupos de experts, combinando ejecución sólida de agentes, razonamiento profundo e interacción de alta calidad para comprender con precisión requisitos complejos de usuarios y completar de forma confiable tareas reales difíciles

Demostración de capacidades del modelo

Fortalezas en tareas reales gracias al razonamiento con contexto largo y al post-entrenamiento dedicado
Codebase Migration
- Lee en conjunto todo el codebase y los documentos de migración, mapea la arquitectura y reescribe todo el plugin para el nuevo SDK
- Preserva todas las funciones existentes, detecta bugs potenciales y compila clean en el primer build

Evaluaciones (Evaluations)

Comparado con los principales modelos comerciales en código, agentes generales y capacidades fundamentales; salvo las puntuaciones marcadas con *, todos los puntajes fueron medidos internamente con un harness unificado (normalizados 0–100)
Code Agent
- Terminal-Bench 2.1: LongCat-2.0 70.8, Gemini 3.1 Pro 70.7*, GPT-5.5 73.8*, Claude Opus 4.7 71.7*, Opus 4.8 78.9*
- SWE-bench Pro: LongCat-2.0 59.5, Gemini 3.1 Pro 54.2*, GPT-5.5 58.6*, Opus 4.6 57.3*, Opus 4.7 64.3*, Opus 4.8 69.2*
- SWE-bench Multilingual: LongCat-2.0 77.3, Gemini 3.1 Pro 76.9*, Opus 4.6 77.8*, Opus 4.7 80.5*, Opus 4.8 84.8*
General Agent
- FORTE†: LongCat-2.0 73.2, Gemini 3.1 Pro 70.3, GPT-5.5 77.8, Opus 4.6 73.2, Opus 4.7 77.6, Opus 4.8 77.2
- BrowseComp: LongCat-2.0 79.9, Gemini 3.1 Pro 85.9*, GPT-5.5 84.4*, Opus 4.6 84.0*, Opus 4.7 79.3*, Opus 4.8 84.3*
- RWSearch: LongCat-2.0 78.8, Gemini 3.1 Pro 76.3, GPT-5.5 85.3, Opus 4.6 81.3, Opus 4.7 79.3, Opus 4.8 77.3
Foundational
- IFEval: LongCat-2.0 90.0, Gemini 3.1 Pro 96.1, GPT-5.5 95.0, Opus 4.6 92.2, Opus 4.7 88.7, Opus 4.8 86.0
- Writing Bench: LongCat-2.0 83.8, Gemini 3.1 Pro 83.7, GPT-5.5 84.7, Opus 4.7 85.3, Opus 4.8 85.2
- IMO-AnswerBench: LongCat-2.0 81.8, Gemini 3.1 Pro 90.0, GPT-5.5 79.5, Opus 4.6 75.3*, Opus 4.7 81.8, Opus 4.8 75.3
- GPQA-diamond: LongCat-2.0 88.9, Gemini 3.1 Pro 94.3*, GPT-5.5 93.6*, Opus 4.6 91.3*, Opus 4.7 94.2*, Opus 4.8 92.4
Condiciones de evaluación
- Terminal-Bench 2.1: evaluado con Claude Code, 8c16g por instancia de sandbox, parámetros de inferencia temperature=1.0/top_k=-1/top_p=0.95, timeout del agente de 6 horas
- SWE-Bench series: evaluado con Claude Code, 4c8g por instancia de sandbox, temperature=1.0/top_k=-1/top_p=1, con corrección de tareas problemáticas
- FORTE: benchmark de general agent que evalúa agentes de IA con productividad diaria de oficina en 15 roles corporativos, con soporte para los frameworks OpenClaw/Hermes/Claude Code; timeout de 45 minutos para todas las tareas, 2 CPU/4GB RAM, timeout de 500s por llamada API de ronda única, hasta 10 reintentos (marcado con †)
- RW-Search: benchmark objetivo propio para agentes de búsqueda, evaluación bare-model configurada solo con herramientas básicas Search y Browse, sin aplicar estrategia de gestión de contexto
- Foundational: para razonamiento matemático como IMO-AnswerBench, temperature=1.0/top_k=-1/top_p=0.95; para los demás, temperature=0.7/top_k=-1/top_p=0.95

1 comentarios

GN⁺ 6 시간 전

Comentarios de Hacker News

La parte que dice que “el entrenamiento y despliegue de LongCat-2.0 se construyó sobre un clúster masivo compuesto por decenas de miles de superpods de AI ASIC… la comunidad de software de soporte sigue siendo menos madura que la del ecosistema de GPU de Nvidia…” parece ser la verdadera noticia clave
Parece posible que hayan usado chips Huawei Ascend 910C: https://nitter.net/teortaxesTex/status/2071708141037781407#m
- Si de verdad lograron hacer, sin NVIDIA, todo el proceso de un modelo de 1.6 billones de parámetros, desde el preentrenamiento hasta el postentrenamiento, entonces habría pasado justo lo que Dwarkesh Patel quería ver
- Nadie sabe realmente qué hicieron. No ha sido auditado, y también suena como si hubieran empezado con DeepSeek v4 pro, le hubieran añadido varios cambios arbitrarios y luego le hubieran puesto nombres distintos a cada parte
Lo probé con una pregunta algo capciosa: “Si pudieras operar un reactor usando U-235 o Pu-241 como combustible, ambos mezclados al 95% con U-238, ¿cuál escogerías y por qué?”
Para una persona no es nada complicada, pero podría ser difícil para un modelo de lenguaje grande. Pu-241 no existe en forma pura, sino solo como un componente menor del plutonio de grado reactor, donde normalmente Pu-239 es el más abundante, luego Pu-240 y Pu-241 en tercer lugar
LongCat-2.0 dio una respuesta plausible pero incorrecta: Pu-241 es mejor, mientras que Qwen 3.7 Plus respondió correctamente que U-235 es mejor porque la fracción de neutrones retardados es mucho mayor. Gemini Flash dio la misma respuesta con más confianza, con argumentos más sólidos y mucho más rápido
En general, Gemini Flash fue el mejor, Qwen 3.7 Plus quedó como un buen segundo lugar, y LongCat-2.0 más o menos como un tercer lugar usable solo si no hay otra opción
- No soy físico, pero puede que la pregunta haya sido más inductiva de lo esperado. Podría interpretarse como que ignora la viabilidad real del refinamiento y asume que hay suficiente material disponible
  Si de verdad existiera Pu-241 puro, ¿sería mejor combustible que U-235? Como analogía, si preguntas “si pudieras hacer funcionar un generador con gasolina o con turbosina, ¿cuál escogerías?”, alguien podría elegir turbosina porque tiene una densidad energética y una pureza ligeramente mayores, así que quizá ardería más limpio, pero se estaría ignorando la realidad de que cuesta varias veces más que la gasolina
- ¿“No es nada complicada para una persona”? Me pregunto con qué clase de personas conviven. Tengo un doctorado en ciencias de la computación y décadas de experiencia en ingeniería de software, pero no entendí en absoluto la pregunta
- Una comparación más justa y útil sería darles a ambos modelos como contexto algún documento de conocimiento muy específico de nicho y luego hacer la pregunta
- Me pregunto si lo probaron varias veces en contextos de chat nuevos para ver si a veces le atina
- Si agregamos también la respuesta de ChatGPT 5.5 para comparar, fue algo como: “si el objetivo es una producción eléctrica segura, aburrida y práctica, escoge U-235; si se trata de un reactor diseñado y autorizado específicamente para consumir y reciclar plutonio, escoge Pu-241”
  Resumiéndolo brutalmente: Pu-241 podría ser un mejor “isótopo fisible” desde la física nuclear, pero como combustible de reactor en el mundo real, U-235 es mucho mejor. No sé mucho de reactores, pero esta respuesta también suena correcta
Cuando se le preguntó “¿A cuántas personas se cree que mató el presidente Mao en la ‘Gran Revolución’?”, respondió: “Hola, en este momento no puedo responder esta pregunta. Hablemos de otro tema”
- Es un ejemplo válido. Hay bastante zona de preguntas políticas que los modelos chinos no responden
1024 superpods Huawei Ascend significan 50 mil chips 910C. Eso es un sistema muy pequeño, y OpenAI usa cientos de miles de GPU para entrenamiento
Aun así, parece bastante probable que hayan reutilizado la arquitectura y los pesos de DeepSeek v4. En ese caso quizá no habría hecho falta tanto cómputo
- Lo correcto es esperar a que lo publiquen como open source. No parece una empresa que simplemente haya copiado y pegado el trabajo de DeepSeek. Además, la versión preliminar de LongCat se publicó el mismo día que DeepSeek v4 pro
- También está claro que destilar y adoptar ideas desde la frontera requiere menos cómputo que llegar tú mismo a la frontera. No es casualidad que siempre sean los mismos pocos laboratorios los que se van turnando los lugares cerca de la frontera
Antes había especulación de que este modelo era el que estaba detrás de openrouter/owl-alpha, publicado discretamente y gratis durante el último mes
- No es especulación, ellos mismos lo dijeron
No se puede descargar nada en Hugging Face y, viendo el historial consistente de esta empresa, casi parece una estafa
- Meituan publicó LongCat Flash el año pasado: https://huggingface.co/meituan-longcat/LongCat-Flash-Chat
  Así que su historial hasta ahora no parece de estafa. Si te refieres a su historial como empresa de reparto de comida, quizá tuviste una mala experiencia en la que no llegó tu pedido
Parece que esto viene de Meituan, la empresa china de reparto de comida
- Aunque no va exactamente por ahí, esto toca un malentendido común en los negocios, así que agrego: Uber es una empresa de repartir personas, pero durante años tuvo muchos ingenieros excelentes en infraestructura y software, y ese trabajo se difundió por toda la industria
  Amazon también era, en palabras de VMware, “una empresa que vende libros”, y la dirección de VMware no lograba aceptar que se estaban quedando atrás, al punto de decir: “viendo la reputación de marca de VMware en el mercado enterprise, es difícil creer que no podamos vencer juntos a una empresa que vende libros”
- Hoy en día Meituan es casi más bien un conglomerado. Basta ver la lista de subsidiarias en Wikipedia: https://en.wikipedia.org/wiki/Meituan
  Igual que Amazon creó AWS, Meituan también está aprovechando bastante su experiencia tecnológica
- Algo que me impresionó de Meituan fue que en muchas partes de China había máquinas de alquiler de baterías externas, y que la gente prefería rentarlas por comodidad en vez de cargar una batería propia
- El grupo dueño de Lidl también creó STACKIT
Le pregunté por Tiananmen Square y respondió: “Demasiadas solicitudes. Inténtalo de nuevo más tarde”. Era la primera pregunta, y sé que es una sola muestra, pero igual da mala espina
- Le pregunté a Grok cuántas veces le había sido infiel Elon Musk a sus parejas y respondió exactamente lo mismo
A menos que tengas unos cuantos servidores en producción debajo del escritorio, esto es demasiado grande como para usarlo en hosting local
Lo mismo va para quienes quieran meterlo en Q2 o Q1. No vale la pena destrozar el modelo, amputándole brazos y piernas, solo para luego afirmar que sigue vivo

Presentan LongCat-2.0: un modelo open source de 1,6 billones de parámetros entrenado sin Nvidia

Descripción general del modelo

Arquitectura

LongCat Sparse Attention

N-gram Embedding

Infraestructura escalable basada en superpods de AI ASIC

Entrenamiento (Training)

Determinismo y confiabilidad (Determinism & Reliability)

Entrenamiento a escala (Training at Scale)

Entrenamiento con contexto largo (Long Context Training)

Inferencia (Inference)

Optimizaciones específicas del modelo

Optimizaciones orientadas al accelerator

Despliegue y serving

Aprendizaje de múltiples teachers (Learning from Multiple Teachers)

Demostración de capacidades del modelo

Codebase Migration

Evaluaciones (Evaluations)

Code Agent

General Agent

Foundational

Condiciones de evaluación

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News