- Tongyi DeepResearch es el primer agente web completamente de código abierto que muestra un rendimiento comparable al de OpenAI DeepResearch, logrando resultados de primer nivel en benchmarks complejos de exploración de información
- Tongyi Lab es una de las divisiones de investigación y desarrollo de IA del Grupo Alibaba, enfocada en modelos de lenguaje grandes (LLM), modelos multimodales y tecnologías de agentes (Agent), y es el creador de los modelos QWEN
- Construyó un pipeline de entrenamiento end-to-end que integra Agentic Continual Pre-training (CPT), Supervised Fine-Tuning (SFT) y Reinforcement Learning (RL)
- Refuerza las capacidades de razonamiento y planificación a largo plazo mediante generación masiva de QA basada completamente en datos sintéticos y el paradigma IterResearch
- Soporta modo ReAct y modo Heavy, cubriendo desde razonamiento simple hasta investigación compleja de múltiples etapas, y asegura un rendimiento estable con aprendizaje por refuerzo basado en el algoritmo GRPO
- Ya fue aplicado en servicios dentro y fuera de Alibaba, como Gaode Mate y Tongyi FaRui, demostrando la practicidad y escalabilidad de los agentes de investigación de IA de código abierto
De chatbot a agente autónomo
- Tongyi DeepResearch es el primer agente web completamente de código abierto que alcanzó un rendimiento al nivel de OpenAI DeepResearch
- Registró 32.9 en Humanity’s Last Exam (HLE), 43.4 en BrowseComp, 46.7 en BrowseComp-ZH y 75 puntos en xbench-DeepSearch
- Supera a todos los agentes Deep Research comerciales y de código abierto existentes
- Además del modelo, también publicó la metodología completa de entrenamiento basada en síntesis de datos
- Proporciona generación automatizada de datos e infraestructura de aprendizaje por refuerzo para todo el proceso, incluyendo Agentic CPT, SFT y RL
- Con el framework ReAct, demuestra una fuerte capacidad interna incluso sin prompt engineering
- En Heavy Mode, muestra el límite de sus capacidades de planificación y razonamiento complejos
Preentrenamiento continuo y postentrenamiento basados en datos sintéticos
- Introduce Agentic CPT para construir un modelo base orientado a agentes
- A través del sistema AgentFounder, implementa síntesis de datos a gran escala y un flywheel de datos cíclico
- En la etapa de reconstrucción de datos y generación de preguntas, integra documentos, datos de crawling, grafos de conocimiento y registros de llamadas a herramientas
- Luego los reestructura como una memoria de conocimiento de mundo abierto centrada en entidades y genera pares de (pregunta, respuesta) en diversas formas
- Mediante Action Synthesis, genera datos de acciones de primer nivel y de orden superior
- Refuerza la capacidad de toma de decisiones al modelar estructuras de decisión de múltiples etapas
-
Datos de postentrenamiento
- Construye un pipeline completamente automatizado de generación sintética de QA
- A través de una serie de investigaciones como WebWalker, WebSailor y WebShaper, produce datos de QA basados en grafos y con control de dificultad
- Asegura una estructura de información realista mediante grafos de conocimiento basados en random walk y fusión de datos tabulares
- Ajusta sistemáticamente la dificultad mediante “operaciones atómicas” como la fusión de entidades
- Minimiza el desajuste entre estructura de información y estructura de razonamiento mediante formalización de problemas basada en teoría de conjuntos
- Mejora la eficiencia de verificación de consistencia en QA
- Un motor de datos automatizado genera preguntas de investigación de nivel doctoral
- Parte de una base de conocimiento multidisciplinaria y genera QA de alta dificultad mediante un bucle iterativo de aumento de complejidad
- Utiliza los frameworks ReAct e IterResearch para aprender diversos patrones de razonamiento
- IterResearch reconstruye el espacio de trabajo en cada ronda para fortalecer la capacidad de planificación a largo plazo
Modos de rollout
- El modelo soporta dos modos de ejecución: modo ReAct y modo Heavy
-
Native ReAct Mode
- Sigue una estructura cíclica de Thought–Action–Observation y ofrece un rendimiento sobresaliente incluso sin prompt engineering
- Con una longitud de contexto de 128K, puede manejar múltiples rondas de interacción
- Su simplicidad y generalidad ofrecen un criterio claro para evaluar las capacidades internas del modelo
- Adopta una metodología general escalable siguiendo el principio de “The Bitter Lesson”
-
Heavy Mode
- Basado en el paradigma IterResearch, realiza tareas complejas de investigación en múltiples etapas
- En cada ronda conserva solo los resultados clave y reconstruye un nuevo espacio de trabajo
- Mantiene una alta calidad de razonamiento actualizando continuamente un informe central
- A través del framework Research–Synthesis, explora en paralelo los resultados de múltiples agentes de investigación y luego los integra
- Asegura rutas de exploración más amplias dentro de un contexto limitado
Pipeline de entrenamiento de agentes end-to-end
- Construye un ciclo de entrenamiento totalmente integrado que va de Agentic CPT → SFT → RL
- En la etapa de aprendizaje por refuerzo on-policy (RL) usa el algoritmo Group Relative Policy Optimization (GRPO)
- Asegura estabilidad con pérdida de gradiente de política a nivel de token, estrategia leave-one-out y filtrado de muestras negativas
- Mantiene la exploración durante el entrenamiento con aumento de recompensas y alta entropía de política
- Los datos sintéticos ofrecen una distribución más consistente que los datos anotados por humanos como BrowseComp, mejorando la eficiencia del entrenamiento
-
Infraestructura
- Entorno de entrenamiento sintético: construcción de un entorno simulado usando una base de datos offline de Wikipedia y un conjunto personalizado de herramientas
- Sandbox estable de herramientas: evita errores en llamadas a herramientas con caché, reintentos y API de respaldo
- Curación automática de datos: mejora estabilidad y rendimiento con síntesis y filtrado de datos en tiempo real según la dinámica del entrenamiento
- Framework asíncrono on-policy: implementación de un bucle de RL asíncrono por pasos basado en rLLM
- A través de este proceso, completa un ciclo de entrenamiento de agentes de IA autoevolutivos, capaz de resolver problemas de forma estable incluso en entornos dinámicos complejos
Casos de uso reales
- Gaode Mate (agente de mapas y navegación)
- En colaboración con el equipo de Amap, desarrolló el copiloto de IA ‘Xiao Gao’
- Realiza planes complejos con razonamiento multietapa, como itinerarios de viaje y rutas que incluyen alojamientos pet-friendly
- Tongyi FaRui (agente de investigación legal)
- Realiza investigaciones multietapa a nivel de abogado, incluyendo búsqueda de precedentes, revisión cruzada de normas e integración de análisis
- Todas las conclusiones se basan en materiales judiciales verificables e incluyen citas precisas
Limitaciones y próximos retos
- El límite de contexto de 128K restringe el manejo de tareas extremadamente largas
- Es necesario verificar la escalabilidad más allá de un modelo MoE de tamaño 30B
- Planea investigar rollout parcial y aprendizaje off-policy para mejorar la eficiencia del aprendizaje por refuerzo
Investigación de la serie
- Se publicaron 11 artículos relacionados, incluyendo WebWalker, WebDancer, WebSailor, WebShaper y WebWatcher
- Durante los últimos 6 meses se publicaron informes técnicos cada mes, y esta vez se publicaron simultáneamente 6 informes nuevos junto con el modelo Tongyi DeepResearch‑30B‑A3B
- Se prevé continuar con el desarrollo de la próxima generación de modelos orientados a agentes
1 comentarios
Opiniones de Hacker News
Una arquitectura donde varios agentes corren en paralelo, los modelos ligeros se encargan de explorar y extraer, y el modelo de 30B se ocupa de la planificación, el enrutamiento de herramientas y la verificación, parece eficiente
La estructura especializada de MoE encaja bien con una IA de agentes distribuida, pero hace falta orquestación para reintentos, consenso y evaluación de investigación web en múltiples pasos
Si los modelos grandes ya crecieron demasiado y están llegando al límite del preentrenamiento, podría haber más modelos orientados a tareas concretas
GPT‑3.5 era bueno en ajedrez, pero los modelos recientes no tanto, así que parece haber tradeoffs en los datos de entrenamiento
Afinar modelos pequeños para tareas específicas cuesta caro, y el ritmo de avance de los modelos grandes es tan rápido que enseguida se quedan atrás
Pero si ese ritmo se desacelera, entrenar modelos pequeños volverá a tener sentido
Desde hace tiempo pienso que estaría bien tener un modelo de 4B~8B que realmente conozca a fondo solo un framework específico como SvelteKit
No estoy convencido de que la calidad de los modelos grandes siempre sea mejor, y si un modelo pequeño corre en una sola GPU, parece mucho más práctico
Hace tiempo le propuse a mi hermano la idea de un sitio web para comparar LLM de ajedrez, pero todavía no se ha implementado
Cuando lo probé, alucinaba movimientos con mucha frecuencia
La ventaja es que puedes entrenar y mejorar solo las partes necesarias de forma individual
En mi experiencia, no pasan del nivel de resumen de un buscador y solo generan informes planos
No está al nivel de un abogado, pero ayuda muchísimo en proyectos sin presupuesto
Más que para alguien que realmente quiere aprender, se siente como un informe de consultoría hecho para “parecer de calidad”, así que su valor práctico es bajo
Ayuda a encontrar ejemplos de referencia para preguntas como “¿ya se ha investigado este tema antes?”
No reemplaza por completo la investigación directa, pero ayuda mucho a ordenar la información inicial
Qwen3 4B me impresionó porque corre bien incluso en mi GPU integrada Intel
Hace tiempo pensé en la idea de un “modelo ultrabarato para detectar contenido dañino”, y parece que un LLM pequeño como este podría cumplir ese papel
También podría servir para enrutamiento
Pero la propiedad CSS
word-break: break-word;hace que sea muy difícil de leerMe gustaría intentar correrlo, aunque sea lento, con una 2080Ti y 128GB de VRAM(?)
Siento que las limitaciones son parte de la diversión
La versión de 32GB se puede encontrar en AliExpress por 150~250 dólares, y juntando varias puedes armar una configuración con 128GB de VRAM
No es tan rápida como una GPU moderna, pero sigue siendo bastante usable
Se puede instalar desde ollama.com
Aunque si de verdad tienes una 2080Ti con 128GB de VRAM, me intriga cómo lo lograste
Va lento, pero funciona bien incluso sin conexión y puedo usarlo hasta en una cafetería
Como uso Ollama, me toca esperar a que porten los modelos nuevos
Ryzen 9 9950X, 96GB de RAM, dos RTX 3090, PSU de 1600W
Puede correr sin problema modelos de 30B cuantizados en FP8
Este modelo es un MoE de 30B, pero tiene alrededor de 3B de parámetros activos, así que se parece a Qwen3 MoE
Yo corro modelos cuantizados a 4bit con un i5‑6600 de hace 11 años y una Radeon 6600 (8GB), y obtengo alrededor de 12 tps con contexto de 16k
También comparte un ejemplo de script de ejecución
openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
Su pronunciación coincide con 同意 (“estar de acuerdo”), pero el significado es distinto
Ver la página oficial de Alibaba Qwen
Los resultados cambian según si usa GPT‑5, GPT‑4o, o3 u otro modelo
Son tareas largas basadas en búsqueda que recopilan material durante 5~10 minutos y luego generan un informe con citas
El modelo Tongyi está especializado en este tipo de bucle de búsqueda y redacción de informes