Diferencias entre Deep Research, Deep Search y simplemente Search
(leehanchung.github.io)- Recientemente, los laboratorios de IA han estado anunciando distintas funciones usando el término 'Deep Research'
- Google presentó Gemini 1.5 Deep Research en diciembre de 2024, OpenAI lanzó Deep Research en febrero de 2025, y Perplexity reveló su propio Deep Research poco después
- Además, DeepSeek, Qwen de Alibaba y xAI de Elon Musk, entre otros, han incorporado funciones de Search y Deep Search en sus asistentes conversacionales
- En GitHub han aparecido decenas de implementaciones open source de 'Deep Research'
- Esto sugiere que, al igual que con Retrieval-Augmented Generation (RAG) en 2025, el término 'Deep Research' se está usando sin una definición clara
Deep Research, Deep Search, o simplemente Search
Google: “Deep Research usa IA para explorar temas complejos, ofrecer informes completos y fáciles de leer, y mostrar que Gemini es cada vez más capaz de encargarse de tareas complejas para ahorrar tiempo.” -
OpenAI: “Deep Research es el agente de nueva generación de OpenAI: al recibir un prompt del usuario, ChatGPT busca, analiza y sintetiza cientos de fuentes en línea para producir un informe integral con nivel de analista de investigación.”
Perplexity: “Cuando haces una pregunta de Deep Research, Perplexity realiza decenas de búsquedas, lee cientos de fuentes, razona sobre el material y entrega de forma autónoma un informe completo.”
- Dejando de lado el término de marketing, Deep Research puede definirse así
Un sistema de generación de informes que recibe una consulta del usuario, usa un modelo de lenguaje grande (LLM) como agente para buscar y analizar información de manera iterativa, y genera un informe detallado
- En terminología de procesamiento de lenguaje natural (NLP), esto se conoce como 'report generation'
Formas de implementación
- Desde la aparición de ChatGPT, la generación de informes o 'Deep Research' se ha convertido en un foco principal de la ingeniería de IA
- El autor experimentó con esto en un hackatón a inicios de 2023, cuando la ingeniería de IA apenas comenzaba a despegar
- Herramientas y demos como LangChain, AutoGPT, GPT-Researcher y prompt engineering recibieron mucha atención en Twitter y LinkedIn
- Sin embargo, el verdadero desafío está en los detalles de implementación
- A continuación se exploran patrones comunes para construir sistemas de generación de informes, se destacan sus diferencias y se clasifican las propuestas de distintos proveedores
Sin entrenamiento: grafo acíclico dirigido (DAG)
- Al principio, se descubrió que no era práctico pedirle a un LLM como GPT-3.5 que generara un informe desde cero
- En su lugar, se usó el patrón Composite para encadenar múltiples llamadas al LLM
- Se descompone la consulta del usuario para generar un esquema del informe
- Para cada sección, se recupera y resume información relevante desde motores de búsqueda o bases de conocimiento
- Finalmente, se usa el LLM para combinar las secciones en un informe coherente
- GPT-Researcher es un ejemplo de esto
- Todos los prompts de este sistema se ajustan cuidadosamente mediante 'prompt engineering'
- La evaluación depende de la revisión subjetiva del resultado, y la calidad del informe es inconsistente
- Cuando funciona, es excelente, pero no siempre es estable
Sin entrenamiento: máquina de estados finitos (FSM)
- Para mejorar la calidad de los informes, los ingenieros añadieron complejidad al enfoque DAG
- En lugar de un proceso de una sola pasada, introdujeron patrones estructurados como Reflexion y self-reflection para que el LLM revise y mejore su propia salida
- Esto transforma un DAG simple en una máquina de estados finitos (FSM), donde el LLM guía parcialmente las transiciones de estado
- Igual que en el enfoque DAG, todos los prompts se escriben manualmente y la evaluación sigue siendo subjetiva
- Como el sistema se ajusta manualmente, la calidad del informe todavía varía mucho
Con entrenamiento: end-to-end
- Las desventajas de los métodos anteriores —prompt engineering aleatorio y falta de métricas de evaluación medibles— impulsaron la búsqueda de un cambio
- STORM de Stanford aborda estos problemas optimizando el sistema end-to-end con DSPy
- Como resultado, STORM genera informes con una calidad comparable a la de artículos de Wikipedia
Con entrenamiento: modelos de razonamiento a gran escala
- A medida que han mejorado las capacidades de razonamiento de los LLM, los modelos de razonamiento a gran escala se han convertido en una opción atractiva para Deep Research
- Por ejemplo, OpenAI entrena su modelo de Deep Research de la siguiente manera
- Evalúa la salida usando LLM-as-a-judge y rúbricas de evaluación
- Los asistentes conversacionales Gemini de Google y Perplexity también ofrecen funciones de 'Deep Research', pero no han publicado documentación sobre cómo optimizaron sus modelos o sistemas ni sobre evaluaciones cuantitativas sustanciales
- Sin embargo, un product manager de Deep Research en Google mencionó en una entrevista de podcast: “Tenemos acceso especial. Es casi exactamente el mismo modelo (Gemini 1.5). Por supuesto, hacemos nuestro propio trabajo de entrenamiento posterior”
- Esto sugiere que el peso del fine-tuning no es tan grande
- Mientras tanto, Grok de xAI destaca en generación de informes, pero parece no buscar más allá de dos iteraciones
- Su método consiste en buscar unas cuantas veces para las secciones del esquema y unas cuantas veces para cada sección
Panorama competitivo
- Se desarrolló un mapa conceptual para evaluar las capacidades de varios servicios que ofrecen funciones de Deep Research
- Eje vertical: profundidad de la investigación (número de ciclos iterativos de recolección de información adicional con base en resultados previos)
- Eje horizontal: nivel de entrenamiento (desde sistemas ajustados manualmente hasta sistemas completamente entrenados con técnicas de machine learning)
- Sistemas representativos con entrenamiento:
- OpenAI Deep Research: sistema basado en reinforcement learning optimizado para tareas de investigación
- DeepSeek: entrenado para razonamiento general y uso de herramientas, adaptable a necesidades de investigación
- Google Gemini: LLM ampliamente entrenado, pero no especializado en investigación
- Stanford STORM: sistema que optimiza todo el proceso de investigación end-to-end
- Este marco ayuda a entender cómo cada servicio equilibra la profundidad de la investigación iterativa y su enfoque de entrenamiento
Conclusión
- La tecnología de Deep Research está avanzando rápidamente, y técnicas que hace unos meses no funcionaban o ni siquiera estaban implementadas ahora se aplican con éxito
- Sin embargo, el uso ambiguo del término está aumentando la confusión
- Ojalá este texto ayude a aclarar las diferencias técnicas y a no dejarse llevar por términos de marketing
2 comentarios
> Un colega bromeó: "AlphaGO le ganó a Lee Sedol, pero Lee Sedol tiene un algoritmo de conducción autónoma mucho mejor"
Pero solo hay un Lee Sedol y no se puede clonar
Opiniones de Hacker News
La distinción entre DeepSearch y DeepResearch propuesta por Han Xiao es muy interesante
Un colega bromeó diciendo: "AlphaGO venció a Lee Sedol, pero Lee Sedol tiene un algoritmo de conducción autónoma mucho mejor"
Parece captar bien la diferencia entre lo que ofrece OpenAI y lo que ofrecen otras empresas
La IA se está volviendo cada vez más diversa, y es posible que se creen distintos agentes
Dicen que Grok destaca en la generación de informes, ya que permite pedir respuestas en formato de tabla para facilitar la comparación
DR es una buena forma de recopilar información y hacer investigación real desde un punto de partida enfocado
Al comparar OpenAI Deep Research con Deep Research de Perplexity, aparece una diferencia de "estrecho y profundo" vs. "superficial y amplio"
Se han probado varios flujos de trabajo a través de Deep Search/Research
STORM recibió altas valoraciones, pero GPT Researcher no
Son de las plataformas de organización de información más grandes de internet, pero no se encuentra otra palabra para describir el producto