Diferencias entre Deep Research, Deep Search y simplemente Search

(leehanchung.github.io)

6 puntos por GN⁺ 2025-03-06 | 2 comentarios | Compartir por WhatsApp

Recientemente, los laboratorios de IA han estado anunciando distintas funciones usando el término 'Deep Research'
Google presentó Gemini 1.5 Deep Research en diciembre de 2024, OpenAI lanzó Deep Research en febrero de 2025, y Perplexity reveló su propio Deep Research poco después
Además, DeepSeek, Qwen de Alibaba y xAI de Elon Musk, entre otros, han incorporado funciones de Search y Deep Search en sus asistentes conversacionales
En GitHub han aparecido decenas de implementaciones open source de 'Deep Research'
Esto sugiere que, al igual que con Retrieval-Augmented Generation (RAG) en 2025, el término 'Deep Research' se está usando sin una definición clara

Deep Research, Deep Search, o simplemente Search

Google: “Deep Research usa IA para explorar temas complejos, ofrecer informes completos y fáciles de leer, y mostrar que Gemini es cada vez más capaz de encargarse de tareas complejas para ahorrar tiempo.” -
OpenAI: “Deep Research es el agente de nueva generación de OpenAI: al recibir un prompt del usuario, ChatGPT busca, analiza y sintetiza cientos de fuentes en línea para producir un informe integral con nivel de analista de investigación.”
Perplexity: “Cuando haces una pregunta de Deep Research, Perplexity realiza decenas de búsquedas, lee cientos de fuentes, razona sobre el material y entrega de forma autónoma un informe completo.”

Dejando de lado el término de marketing, Deep Research puede definirse así

Un sistema de generación de informes que recibe una consulta del usuario, usa un modelo de lenguaje grande (LLM) como agente para buscar y analizar información de manera iterativa, y genera un informe detallado

En terminología de procesamiento de lenguaje natural (NLP), esto se conoce como 'report generation'

Formas de implementación

Desde la aparición de ChatGPT, la generación de informes o 'Deep Research' se ha convertido en un foco principal de la ingeniería de IA
El autor experimentó con esto en un hackatón a inicios de 2023, cuando la ingeniería de IA apenas comenzaba a despegar
Herramientas y demos como LangChain, AutoGPT, GPT-Researcher y prompt engineering recibieron mucha atención en Twitter y LinkedIn
Sin embargo, el verdadero desafío está en los detalles de implementación
A continuación se exploran patrones comunes para construir sistemas de generación de informes, se destacan sus diferencias y se clasifican las propuestas de distintos proveedores

Sin entrenamiento: grafo acíclico dirigido (DAG)

Al principio, se descubrió que no era práctico pedirle a un LLM como GPT-3.5 que generara un informe desde cero
En su lugar, se usó el patrón Composite para encadenar múltiples llamadas al LLM
Se descompone la consulta del usuario para generar un esquema del informe
Para cada sección, se recupera y resume información relevante desde motores de búsqueda o bases de conocimiento
Finalmente, se usa el LLM para combinar las secciones en un informe coherente
GPT-Researcher es un ejemplo de esto
- Todos los prompts de este sistema se ajustan cuidadosamente mediante 'prompt engineering'
- La evaluación depende de la revisión subjetiva del resultado, y la calidad del informe es inconsistente
- Cuando funciona, es excelente, pero no siempre es estable

Sin entrenamiento: máquina de estados finitos (FSM)

Para mejorar la calidad de los informes, los ingenieros añadieron complejidad al enfoque DAG
En lugar de un proceso de una sola pasada, introdujeron patrones estructurados como Reflexion y self-reflection para que el LLM revise y mejore su propia salida
Esto transforma un DAG simple en una máquina de estados finitos (FSM), donde el LLM guía parcialmente las transiciones de estado
- Igual que en el enfoque DAG, todos los prompts se escriben manualmente y la evaluación sigue siendo subjetiva
- Como el sistema se ajusta manualmente, la calidad del informe todavía varía mucho

Con entrenamiento: end-to-end

Las desventajas de los métodos anteriores —prompt engineering aleatorio y falta de métricas de evaluación medibles— impulsaron la búsqueda de un cambio
STORM de Stanford aborda estos problemas optimizando el sistema end-to-end con DSPy
- Como resultado, STORM genera informes con una calidad comparable a la de artículos de Wikipedia

Con entrenamiento: modelos de razonamiento a gran escala

A medida que han mejorado las capacidades de razonamiento de los LLM, los modelos de razonamiento a gran escala se han convertido en una opción atractiva para Deep Research
Por ejemplo, OpenAI entrena su modelo de Deep Research de la siguiente manera
- Evalúa la salida usando LLM-as-a-judge y rúbricas de evaluación
Los asistentes conversacionales Gemini de Google y Perplexity también ofrecen funciones de 'Deep Research', pero no han publicado documentación sobre cómo optimizaron sus modelos o sistemas ni sobre evaluaciones cuantitativas sustanciales
Sin embargo, un product manager de Deep Research en Google mencionó en una entrevista de podcast: “Tenemos acceso especial. Es casi exactamente el mismo modelo (Gemini 1.5). Por supuesto, hacemos nuestro propio trabajo de entrenamiento posterior”
Esto sugiere que el peso del fine-tuning no es tan grande
Mientras tanto, Grok de xAI destaca en generación de informes, pero parece no buscar más allá de dos iteraciones
Su método consiste en buscar unas cuantas veces para las secciones del esquema y unas cuantas veces para cada sección

Panorama competitivo

Se desarrolló un mapa conceptual para evaluar las capacidades de varios servicios que ofrecen funciones de Deep Research
Eje vertical: profundidad de la investigación (número de ciclos iterativos de recolección de información adicional con base en resultados previos)
Eje horizontal: nivel de entrenamiento (desde sistemas ajustados manualmente hasta sistemas completamente entrenados con técnicas de machine learning)
Sistemas representativos con entrenamiento:
- OpenAI Deep Research: sistema basado en reinforcement learning optimizado para tareas de investigación
- DeepSeek: entrenado para razonamiento general y uso de herramientas, adaptable a necesidades de investigación
- Google Gemini: LLM ampliamente entrenado, pero no especializado en investigación
- Stanford STORM: sistema que optimiza todo el proceso de investigación end-to-end
Este marco ayuda a entender cómo cada servicio equilibra la profundidad de la investigación iterativa y su enfoque de entrenamiento

Conclusión

La tecnología de Deep Research está avanzando rápidamente, y técnicas que hace unos meses no funcionaban o ni siquiera estaban implementadas ahora se aplican con éxito
Sin embargo, el uso ambiguo del término está aumentando la confusión
Ojalá este texto ayude a aclarar las diferencias técnicas y a no dejarse llevar por términos de marketing

2 comentarios

halfenif 2025-03-10

> Un colega bromeó: "AlphaGO le ganó a Lee Sedol, pero Lee Sedol tiene un algoritmo de conducción autónoma mucho mejor"

Pero solo hay un Lee Sedol y no se puede clonar

GN⁺ 2025-03-06

Opiniones de Hacker News

La distinción entre DeepSearch y DeepResearch propuesta por Han Xiao es muy interesante
- DeepSearch es el proceso de buscar, leer y razonar repetidamente hasta encontrar la mejor respuesta
- DeepResearch agrega un marco estructurado a DeepSearch para generar informes de investigación extensos
- DeepSearch parece un patrón más valioso e interesante
- DeepResearch no sería más que un efecto cosmético que empaqueta el resultado como un "informe", con una alta probabilidad de producir resultados inexactos o engañosos
Un colega bromeó diciendo: "AlphaGO venció a Lee Sedol, pero Lee Sedol tiene un algoritmo de conducción autónoma mucho mejor"
- Esto resalta la gran diferencia entre los sistemas de IA más avanzados y la "capacidad promedio" de una persona común con el paso del tiempo
Parece captar bien la diferencia entre lo que ofrece OpenAI y lo que ofrecen otras empresas
- Gemini 2.0 Flash de Google también tiene integración nativa con Google Search
- El DR de OpenAI tiende a entrenar modelos para tareas específicas
- Va avanzando hacia ofrecer como producto el modelo más el entrenamiento posterior con RL
- genspark MOA genera informes profundos para un prompt dado
La IA se está volviendo cada vez más diversa, y es posible que se creen distintos agentes
Dicen que Grok destaca en la generación de informes, ya que permite pedir respuestas en formato de tabla para facilitar la comparación
- Amazon elige los productos a comparar, pero los criterios de comparación no son buenos
- Con Grok se pueden agregar o quitar columnas y acortar la respuesta
DR es una buena forma de recopilar información y hacer investigación real desde un punto de partida enfocado
- Que un LLM lo haga no significa que se haya vuelto más sabio
- Un LLM no comprende el tema con mayor profundidad
- Se necesita una capacidad más profunda para integrar y aplicar la información
- Debido a las limitaciones de la arquitectura transformer, el aprendizaje en tiempo real es difícil
Al comparar OpenAI Deep Research con Deep Research de Perplexity, aparece una diferencia de "estrecho y profundo" vs. "superficial y amplio"
- OpenAI selecciona fuentes de alta calidad y profundiza en un tema específico
- Perplexity usa muchas fuentes para ofrecer un panorama superficial del espacio del problema
- OpenAI tarda más tiempo
Se han probado varios flujos de trabajo a través de Deep Search/Research
- Existen enfoques imperativos (elegir directamente las fuentes para generar el informe) y declarativos (usar algoritmos DFS/BFS)
- Fascina el flujo de extremo a extremo de sistemas como STORM
STORM recibió altas valoraciones, pero GPT Researcher no
- GPT Researcher puede configurarse para ajustarse a distintos presupuestos
Son de las plataformas de organización de información más grandes de internet, pero no se encuentra otra palabra para describir el producto