Tongyi DeepResearch – un modelo MoE 30B de código abierto a la altura de OpenAI DeepResearch

(tongyi-agent.github.io)

10 puntos por GN⁺ 2025-11-04 | 1 comentarios | Compartir por WhatsApp

Tongyi DeepResearch es el primer agente web completamente de código abierto que muestra un rendimiento comparable al de OpenAI DeepResearch, logrando resultados de primer nivel en benchmarks complejos de exploración de información
- Tongyi Lab es una de las divisiones de investigación y desarrollo de IA del Grupo Alibaba, enfocada en modelos de lenguaje grandes (LLM), modelos multimodales y tecnologías de agentes (Agent), y es el creador de los modelos QWEN
Construyó un pipeline de entrenamiento end-to-end que integra Agentic Continual Pre-training (CPT), Supervised Fine-Tuning (SFT) y Reinforcement Learning (RL)
Refuerza las capacidades de razonamiento y planificación a largo plazo mediante generación masiva de QA basada completamente en datos sintéticos y el paradigma IterResearch
Soporta modo ReAct y modo Heavy, cubriendo desde razonamiento simple hasta investigación compleja de múltiples etapas, y asegura un rendimiento estable con aprendizaje por refuerzo basado en el algoritmo GRPO
Ya fue aplicado en servicios dentro y fuera de Alibaba, como Gaode Mate y Tongyi FaRui, demostrando la practicidad y escalabilidad de los agentes de investigación de IA de código abierto

De chatbot a agente autónomo

Tongyi DeepResearch es el primer agente web completamente de código abierto que alcanzó un rendimiento al nivel de OpenAI DeepResearch
- Registró 32.9 en Humanity’s Last Exam (HLE), 43.4 en BrowseComp, 46.7 en BrowseComp-ZH y 75 puntos en xbench-DeepSearch
- Supera a todos los agentes Deep Research comerciales y de código abierto existentes
Además del modelo, también publicó la metodología completa de entrenamiento basada en síntesis de datos
- Proporciona generación automatizada de datos e infraestructura de aprendizaje por refuerzo para todo el proceso, incluyendo Agentic CPT, SFT y RL
Con el framework ReAct, demuestra una fuerte capacidad interna incluso sin prompt engineering
- En Heavy Mode, muestra el límite de sus capacidades de planificación y razonamiento complejos

Preentrenamiento continuo y postentrenamiento basados en datos sintéticos

Introduce Agentic CPT para construir un modelo base orientado a agentes
- A través del sistema AgentFounder, implementa síntesis de datos a gran escala y un flywheel de datos cíclico
En la etapa de reconstrucción de datos y generación de preguntas, integra documentos, datos de crawling, grafos de conocimiento y registros de llamadas a herramientas
- Luego los reestructura como una memoria de conocimiento de mundo abierto centrada en entidades y genera pares de (pregunta, respuesta) en diversas formas
Mediante Action Synthesis, genera datos de acciones de primer nivel y de orden superior
- Refuerza la capacidad de toma de decisiones al modelar estructuras de decisión de múltiples etapas
Datos de postentrenamiento
- Construye un pipeline completamente automatizado de generación sintética de QA
  - A través de una serie de investigaciones como WebWalker, WebSailor y WebShaper, produce datos de QA basados en grafos y con control de dificultad
- Asegura una estructura de información realista mediante grafos de conocimiento basados en random walk y fusión de datos tabulares
  - Ajusta sistemáticamente la dificultad mediante “operaciones atómicas” como la fusión de entidades
- Minimiza el desajuste entre estructura de información y estructura de razonamiento mediante formalización de problemas basada en teoría de conjuntos
  - Mejora la eficiencia de verificación de consistencia en QA
- Un motor de datos automatizado genera preguntas de investigación de nivel doctoral
  - Parte de una base de conocimiento multidisciplinaria y genera QA de alta dificultad mediante un bucle iterativo de aumento de complejidad
- Utiliza los frameworks ReAct e IterResearch para aprender diversos patrones de razonamiento
  - IterResearch reconstruye el espacio de trabajo en cada ronda para fortalecer la capacidad de planificación a largo plazo

Modos de rollout

El modelo soporta dos modos de ejecución: modo ReAct y modo Heavy
Native ReAct Mode
- Sigue una estructura cíclica de Thought–Action–Observation y ofrece un rendimiento sobresaliente incluso sin prompt engineering
  - Con una longitud de contexto de 128K, puede manejar múltiples rondas de interacción
- Su simplicidad y generalidad ofrecen un criterio claro para evaluar las capacidades internas del modelo
- Adopta una metodología general escalable siguiendo el principio de “The Bitter Lesson”
Heavy Mode
- Basado en el paradigma IterResearch, realiza tareas complejas de investigación en múltiples etapas
  - En cada ronda conserva solo los resultados clave y reconstruye un nuevo espacio de trabajo
  - Mantiene una alta calidad de razonamiento actualizando continuamente un informe central
- A través del framework Research–Synthesis, explora en paralelo los resultados de múltiples agentes de investigación y luego los integra
  - Asegura rutas de exploración más amplias dentro de un contexto limitado

Pipeline de entrenamiento de agentes end-to-end

Construye un ciclo de entrenamiento totalmente integrado que va de Agentic CPT → SFT → RL
En la etapa de aprendizaje por refuerzo on-policy (RL) usa el algoritmo Group Relative Policy Optimization (GRPO)
- Asegura estabilidad con pérdida de gradiente de política a nivel de token, estrategia leave-one-out y filtrado de muestras negativas
- Mantiene la exploración durante el entrenamiento con aumento de recompensas y alta entropía de política
Los datos sintéticos ofrecen una distribución más consistente que los datos anotados por humanos como BrowseComp, mejorando la eficiencia del entrenamiento
Infraestructura
- Entorno de entrenamiento sintético: construcción de un entorno simulado usando una base de datos offline de Wikipedia y un conjunto personalizado de herramientas
- Sandbox estable de herramientas: evita errores en llamadas a herramientas con caché, reintentos y API de respaldo
- Curación automática de datos: mejora estabilidad y rendimiento con síntesis y filtrado de datos en tiempo real según la dinámica del entrenamiento
- Framework asíncrono on-policy: implementación de un bucle de RL asíncrono por pasos basado en rLLM
- A través de este proceso, completa un ciclo de entrenamiento de agentes de IA autoevolutivos, capaz de resolver problemas de forma estable incluso en entornos dinámicos complejos

Casos de uso reales

Gaode Mate (agente de mapas y navegación)
- En colaboración con el equipo de Amap, desarrolló el copiloto de IA ‘Xiao Gao’
- Realiza planes complejos con razonamiento multietapa, como itinerarios de viaje y rutas que incluyen alojamientos pet-friendly
Tongyi FaRui (agente de investigación legal)
- Realiza investigaciones multietapa a nivel de abogado, incluyendo búsqueda de precedentes, revisión cruzada de normas e integración de análisis
- Todas las conclusiones se basan en materiales judiciales verificables e incluyen citas precisas

Limitaciones y próximos retos

El límite de contexto de 128K restringe el manejo de tareas extremadamente largas
Es necesario verificar la escalabilidad más allá de un modelo MoE de tamaño 30B
Planea investigar rollout parcial y aprendizaje off-policy para mejorar la eficiencia del aprendizaje por refuerzo

Investigación de la serie

Se publicaron 11 artículos relacionados, incluyendo WebWalker, WebDancer, WebSailor, WebShaper y WebWatcher
Durante los últimos 6 meses se publicaron informes técnicos cada mes, y esta vez se publicaron simultáneamente 6 informes nuevos junto con el modelo Tongyi DeepResearch‑30B‑A3B
Se prevé continuar con el desarrollo de la próxima generación de modelos orientados a agentes

1 comentarios

GN⁺ 2025-11-04

Opiniones de Hacker News

Da gusto ver un modelo MoE de 30B publicado para “deep research”
Una arquitectura donde varios agentes corren en paralelo, los modelos ligeros se encargan de explorar y extraer, y el modelo de 30B se ocupa de la planificación, el enrutamiento de herramientas y la verificación, parece eficiente
La estructura especializada de MoE encaja bien con una IA de agentes distribuida, pero hace falta orquestación para reintentos, consenso y evaluación de investigación web en múltiples pasos
Me pregunto si ahora veremos una explosión de LLM especializados
Si los modelos grandes ya crecieron demasiado y están llegando al límite del preentrenamiento, podría haber más modelos orientados a tareas concretas
GPT‑3.5 era bueno en ajedrez, pero los modelos recientes no tanto, así que parece haber tradeoffs en los datos de entrenamiento
- Por ahora, los modelos grandes de propósito general son mejores en casi todo
  Afinar modelos pequeños para tareas específicas cuesta caro, y el ritmo de avance de los modelos grandes es tan rápido que enseguida se quedan atrás
  Pero si ese ritmo se desacelera, entrenar modelos pequeños volverá a tener sentido
- Me gustaría ver un benchmark de LLM buenos en ajedrez
  Desde hace tiempo pienso que estaría bien tener un modelo de 4B~8B que realmente conozca a fondo solo un framework específico como SvelteKit
  No estoy convencido de que la calidad de los modelos grandes siempre sea mejor, y si un modelo pequeño corre en una sola GPU, parece mucho más práctico
  Hace tiempo le propuse a mi hermano la idea de un sitio web para comparar LLM de ajedrez, pero todavía no se ha implementado
- No estoy de acuerdo con eso de que GPT‑3.5 era bueno en ajedrez
  Cuando lo probé, alucinaba movimientos con mucha frecuencia
- Comparten el enlace a seed‑tars.com/game‑tars
- ¿No es justo este el punto clave de la arquitectura MoE?
  La ventaja es que puedes entrenar y mejorar solo las partes necesarias de forma individual
Me pregunto si estas herramientas de deep research realmente son útiles
En mi experiencia, no pasan del nivel de resumen de un buscador y solo generan informes planos
- En Reino Unido manejo un sitio web pequeño y lo probé para cumplimiento legal; si le das contexto, entrega resultados bastante personalizados
  No está al nivel de un abogado, pero ayuda muchísimo en proyectos sin presupuesto
- Mi experiencia es parecida
  Más que para alguien que realmente quiere aprender, se siente como un informe de consultoría hecho para “parecer de calidad”, así que su valor práctico es bajo
- Los informes son planos, pero sí sirve para rastrear fuentes
  Ayuda a encontrar ejemplos de referencia para preguntas como “¿ya se ha investigado este tema antes?”
- Uso ChatGPT seguido, y cuando le haces una pregunta organiza muy bien las fuentes relacionadas
  No reemplaza por completo la investigación directa, pero ayuda mucho a ordenar la información inicial
- Aunque sea un resumen al nivel de buscador, igual sirve bastante para encontrar ideas nuevas o unknown unknowns
Publiqué en Hugging Face un modelo destilado Qwen3 4B y un conjunto de datos sintéticos que hice hace tiempo
- Ojalá hicieran un Hugging Face Space para poder probarlo directo en el navegador
  Qwen3 4B me impresionó porque corre bien incluso en mi GPU integrada Intel
  Hace tiempo pensé en la idea de un “modelo ultrabarato para detectar contenido dañino”, y parece que un LLM pequeño como este podría cumplir ese papel
  También podría servir para enrutamiento
- Lo probé con mi MCP de búsqueda web, y es la primera vez que veo esta calidad de deep research en un modelo tan pequeño
En general es una serie interesante
Pero la propiedad CSS word-break: break-word; hace que sea muy difícil de leer
- Yo también traté de leerlo, pero se siente como si las palabras no conectaran
En una mañana de domingo, como pasatiempo de ingeniería y self-hosting, me pregunto cómo podría montarlo
Me gustaría intentar correrlo, aunque sea lento, con una 2080Ti y 128GB de VRAM(?)
Siento que las limitaciones son parte de la diversión
- Si quieres conseguir VRAM barata, la AMD MI50 está bastante bien
  La versión de 32GB se puede encontrar en AliExpress por 150~250 dólares, y juntando varias puedes armar una configuración con 128GB de VRAM
  No es tan rápida como una GPU moderna, pero sigue siendo bastante usable
- Si quieres probarlo rápido en local, la app de Ollama es lo más simple
  Se puede instalar desde ollama.com
  Aunque si de verdad tienes una 2080Ti con 128GB de VRAM, me intriga cómo lo lograste
- Yo corro modelos en una MacBook Pro con 128GB de memoria unificada
  Va lento, pero funciona bien incluso sin conexión y puedo usarlo hasta en una cafetería
  Como uso Ollama, me toca esperar a que porten los modelos nuevos
- Mi setup armado con presupuesto limitado es este
  Ryzen 9 9950X, 96GB de RAM, dos RTX 3090, PSU de 1600W
  Puede correr sin problema modelos de 30B cuantizados en FP8
- Probablemente no se refería a VRAM sino a RAM
  Este modelo es un MoE de 30B, pero tiene alrededor de 3B de parámetros activos, así que se parece a Qwen3 MoE
  Yo corro modelos cuantizados a 4bit con un i5‑6600 de hace 11 años y una Radeon 6600 (8GB), y obtengo alrededor de 12 tps con contexto de 16k
  También comparte un ejemplo de script de ejecución
El modelo Tongyi también está disponible en OpenRouter, con versión gratuita incluida
openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
Bromean con que quizá “Deep research” se tradujo como “Agree”
- En realidad, el nombre en chino es 通义千问 (Tongyi Qianwen), y significa “conoce todas las preguntas”
  Su pronunciación coincide con 同意 (“estar de acuerdo”), pero el significado es distinto
  Ver la página oficial de Alibaba Qwen
Este modelo en realidad ya había publicado sus pesos hace un mes
- Aun así, no todo el mundo va siguiendo todo en tiempo real, así que incluso un modelo de hace un mes sigue siendo útil
- En ese caso, me da curiosidad cómo queda la comparación de rendimiento frente a otros modelos
El “Deep research” de OpenAI no es un modelo específico, sino más bien un patrón funcional
Los resultados cambian según si usa GPT‑5, GPT‑4o, o3 u otro modelo
- Ahora mismo casi todos —OpenAI, Perplexity, Google Gemini, Anthropic, Grok, etc.— ofrecen un patrón de investigación parecido
  Son tareas largas basadas en búsqueda que recopilan material durante 5~10 minutos y luego generan un informe con citas
  El modelo Tongyi está especializado en este tipo de bucle de búsqueda y redacción de informes

Tongyi DeepResearch – un modelo MoE 30B de código abierto a la altura de OpenAI DeepResearch

De chatbot a agente autónomo

Preentrenamiento continuo y postentrenamiento basados en datos sintéticos

Datos de postentrenamiento

Modos de rollout

Native ReAct Mode

Heavy Mode

Pipeline de entrenamiento de agentes end-to-end

Infraestructura

Casos de uso reales

Limitaciones y próximos retos

Investigación de la serie

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News