6 puntos por GN⁺ 2025-03-06 | 2 comentarios | Compartir por WhatsApp
  • Recientemente, los laboratorios de IA han estado anunciando distintas funciones usando el término 'Deep Research'
  • Google presentó Gemini 1.5 Deep Research en diciembre de 2024, OpenAI lanzó Deep Research en febrero de 2025, y Perplexity reveló su propio Deep Research poco después
  • Además, DeepSeek, Qwen de Alibaba y xAI de Elon Musk, entre otros, han incorporado funciones de Search y Deep Search en sus asistentes conversacionales
  • En GitHub han aparecido decenas de implementaciones open source de 'Deep Research'
  • Esto sugiere que, al igual que con Retrieval-Augmented Generation (RAG) en 2025, el término 'Deep Research' se está usando sin una definición clara

Deep Research, Deep Search, o simplemente Search

Google: “Deep Research usa IA para explorar temas complejos, ofrecer informes completos y fáciles de leer, y mostrar que Gemini es cada vez más capaz de encargarse de tareas complejas para ahorrar tiempo.” -
OpenAI: “Deep Research es el agente de nueva generación de OpenAI: al recibir un prompt del usuario, ChatGPT busca, analiza y sintetiza cientos de fuentes en línea para producir un informe integral con nivel de analista de investigación.”
Perplexity: “Cuando haces una pregunta de Deep Research, Perplexity realiza decenas de búsquedas, lee cientos de fuentes, razona sobre el material y entrega de forma autónoma un informe completo.”

  • Dejando de lado el término de marketing, Deep Research puede definirse así

Un sistema de generación de informes que recibe una consulta del usuario, usa un modelo de lenguaje grande (LLM) como agente para buscar y analizar información de manera iterativa, y genera un informe detallado

  • En terminología de procesamiento de lenguaje natural (NLP), esto se conoce como 'report generation'

Formas de implementación

  • Desde la aparición de ChatGPT, la generación de informes o 'Deep Research' se ha convertido en un foco principal de la ingeniería de IA
  • El autor experimentó con esto en un hackatón a inicios de 2023, cuando la ingeniería de IA apenas comenzaba a despegar
  • Herramientas y demos como LangChain, AutoGPT, GPT-Researcher y prompt engineering recibieron mucha atención en Twitter y LinkedIn
  • Sin embargo, el verdadero desafío está en los detalles de implementación
  • A continuación se exploran patrones comunes para construir sistemas de generación de informes, se destacan sus diferencias y se clasifican las propuestas de distintos proveedores

Sin entrenamiento: grafo acíclico dirigido (DAG)

  • Al principio, se descubrió que no era práctico pedirle a un LLM como GPT-3.5 que generara un informe desde cero
  • En su lugar, se usó el patrón Composite para encadenar múltiples llamadas al LLM
  • Se descompone la consulta del usuario para generar un esquema del informe
  • Para cada sección, se recupera y resume información relevante desde motores de búsqueda o bases de conocimiento
  • Finalmente, se usa el LLM para combinar las secciones en un informe coherente
  • GPT-Researcher es un ejemplo de esto
    • Todos los prompts de este sistema se ajustan cuidadosamente mediante 'prompt engineering'
    • La evaluación depende de la revisión subjetiva del resultado, y la calidad del informe es inconsistente
    • Cuando funciona, es excelente, pero no siempre es estable

Sin entrenamiento: máquina de estados finitos (FSM)

  • Para mejorar la calidad de los informes, los ingenieros añadieron complejidad al enfoque DAG
  • En lugar de un proceso de una sola pasada, introdujeron patrones estructurados como Reflexion y self-reflection para que el LLM revise y mejore su propia salida
  • Esto transforma un DAG simple en una máquina de estados finitos (FSM), donde el LLM guía parcialmente las transiciones de estado
    • Igual que en el enfoque DAG, todos los prompts se escriben manualmente y la evaluación sigue siendo subjetiva
    • Como el sistema se ajusta manualmente, la calidad del informe todavía varía mucho

Con entrenamiento: end-to-end

  • Las desventajas de los métodos anteriores —prompt engineering aleatorio y falta de métricas de evaluación medibles— impulsaron la búsqueda de un cambio
  • STORM de Stanford aborda estos problemas optimizando el sistema end-to-end con DSPy
    • Como resultado, STORM genera informes con una calidad comparable a la de artículos de Wikipedia

Con entrenamiento: modelos de razonamiento a gran escala

  • A medida que han mejorado las capacidades de razonamiento de los LLM, los modelos de razonamiento a gran escala se han convertido en una opción atractiva para Deep Research
  • Por ejemplo, OpenAI entrena su modelo de Deep Research de la siguiente manera
    • Evalúa la salida usando LLM-as-a-judge y rúbricas de evaluación
  • Los asistentes conversacionales Gemini de Google y Perplexity también ofrecen funciones de 'Deep Research', pero no han publicado documentación sobre cómo optimizaron sus modelos o sistemas ni sobre evaluaciones cuantitativas sustanciales
  • Sin embargo, un product manager de Deep Research en Google mencionó en una entrevista de podcast: “Tenemos acceso especial. Es casi exactamente el mismo modelo (Gemini 1.5). Por supuesto, hacemos nuestro propio trabajo de entrenamiento posterior”
  • Esto sugiere que el peso del fine-tuning no es tan grande
  • Mientras tanto, Grok de xAI destaca en generación de informes, pero parece no buscar más allá de dos iteraciones
  • Su método consiste en buscar unas cuantas veces para las secciones del esquema y unas cuantas veces para cada sección

Panorama competitivo

  • Se desarrolló un mapa conceptual para evaluar las capacidades de varios servicios que ofrecen funciones de Deep Research
  • Eje vertical: profundidad de la investigación (número de ciclos iterativos de recolección de información adicional con base en resultados previos)
  • Eje horizontal: nivel de entrenamiento (desde sistemas ajustados manualmente hasta sistemas completamente entrenados con técnicas de machine learning)
  • Sistemas representativos con entrenamiento:
    • OpenAI Deep Research: sistema basado en reinforcement learning optimizado para tareas de investigación
    • DeepSeek: entrenado para razonamiento general y uso de herramientas, adaptable a necesidades de investigación
    • Google Gemini: LLM ampliamente entrenado, pero no especializado en investigación
    • Stanford STORM: sistema que optimiza todo el proceso de investigación end-to-end
  • Este marco ayuda a entender cómo cada servicio equilibra la profundidad de la investigación iterativa y su enfoque de entrenamiento

Conclusión

  • La tecnología de Deep Research está avanzando rápidamente, y técnicas que hace unos meses no funcionaban o ni siquiera estaban implementadas ahora se aplican con éxito
  • Sin embargo, el uso ambiguo del término está aumentando la confusión
  • Ojalá este texto ayude a aclarar las diferencias técnicas y a no dejarse llevar por términos de marketing

2 comentarios

 
halfenif 2025-03-10

> Un colega bromeó: "AlphaGO le ganó a Lee Sedol, pero Lee Sedol tiene un algoritmo de conducción autónoma mucho mejor"

Pero solo hay un Lee Sedol y no se puede clonar

 
GN⁺ 2025-03-06
Opiniones de Hacker News
  • La distinción entre DeepSearch y DeepResearch propuesta por Han Xiao es muy interesante

    • DeepSearch es el proceso de buscar, leer y razonar repetidamente hasta encontrar la mejor respuesta
    • DeepResearch agrega un marco estructurado a DeepSearch para generar informes de investigación extensos
    • DeepSearch parece un patrón más valioso e interesante
    • DeepResearch no sería más que un efecto cosmético que empaqueta el resultado como un "informe", con una alta probabilidad de producir resultados inexactos o engañosos
  • Un colega bromeó diciendo: "AlphaGO venció a Lee Sedol, pero Lee Sedol tiene un algoritmo de conducción autónoma mucho mejor"

    • Esto resalta la gran diferencia entre los sistemas de IA más avanzados y la "capacidad promedio" de una persona común con el paso del tiempo
  • Parece captar bien la diferencia entre lo que ofrece OpenAI y lo que ofrecen otras empresas

    • Gemini 2.0 Flash de Google también tiene integración nativa con Google Search
    • El DR de OpenAI tiende a entrenar modelos para tareas específicas
    • Va avanzando hacia ofrecer como producto el modelo más el entrenamiento posterior con RL
    • genspark MOA genera informes profundos para un prompt dado
  • La IA se está volviendo cada vez más diversa, y es posible que se creen distintos agentes

  • Dicen que Grok destaca en la generación de informes, ya que permite pedir respuestas en formato de tabla para facilitar la comparación

    • Amazon elige los productos a comparar, pero los criterios de comparación no son buenos
    • Con Grok se pueden agregar o quitar columnas y acortar la respuesta
  • DR es una buena forma de recopilar información y hacer investigación real desde un punto de partida enfocado

    • Que un LLM lo haga no significa que se haya vuelto más sabio
    • Un LLM no comprende el tema con mayor profundidad
    • Se necesita una capacidad más profunda para integrar y aplicar la información
    • Debido a las limitaciones de la arquitectura transformer, el aprendizaje en tiempo real es difícil
  • Al comparar OpenAI Deep Research con Deep Research de Perplexity, aparece una diferencia de "estrecho y profundo" vs. "superficial y amplio"

    • OpenAI selecciona fuentes de alta calidad y profundiza en un tema específico
    • Perplexity usa muchas fuentes para ofrecer un panorama superficial del espacio del problema
    • OpenAI tarda más tiempo
  • Se han probado varios flujos de trabajo a través de Deep Search/Research

    • Existen enfoques imperativos (elegir directamente las fuentes para generar el informe) y declarativos (usar algoritmos DFS/BFS)
    • Fascina el flujo de extremo a extremo de sistemas como STORM
  • STORM recibió altas valoraciones, pero GPT Researcher no

    • GPT Researcher puede configurarse para ajustarse a distintos presupuestos
  • Son de las plataformas de organización de información más grandes de internet, pero no se encuentra otra palabra para describir el producto