Google publica la API de Gemini Deep Research Agent

(x.com/GoogleAIStudio)

4 puntos por ragingwind 6 일 전 | Aún no hay comentarios. | Compartir por WhatsApp

Google publicó Gemini Deep Research Agent como API. Deep Research es una función en la que la IA, ante una pregunta del usuario, crea por sí sola un plan de búsqueda, explora, compara y sintetiza múltiples páginas web, y genera automáticamente un informe extenso con fuentes citadas. Antes solo podía usarse desde la interfaz web de Google AI Studio, pero ahora los desarrolladores pueden integrarlo directamente en sus propias aplicaciones mediante una nueva interfaz asíncrona llamada Interactions API. A diferencia de una llamada tradicional a generate_content, el trabajo se ejecuta en segundo plano durante varios minutos, por lo que la estructura consiste en enviar la solicitud y luego verificar periódicamente si terminó mediante polling o recibir el progreso por streaming.

Modelos disponibles

deep-research-preview-04-2026: enfocado en velocidad y eficiencia. Adecuado para hacer streaming en tiempo real hacia la UI del cliente.
deep-research-max-preview-04-2026: busca la máxima exhaustividad. Destaca en la recopilación y síntesis automatizada de contexto.

Resumen de funciones clave

Planificación colaborativa (Collaborative Planning): en lugar de ejecutar la investigación de inmediato, el agente primero propone un plan. Cuando el usuario lo revisa, lo modifica y lo aprueba, entonces comienza la ejecución real.
Generación automática de gráficos e infografías: si se activa la opción visualization="auto", el agente crea por su cuenta gráficos y diagramas y los devuelve como imágenes codificadas en base64.
Integración con servidores MCP: admite Model Context Protocol (un estándar abierto para conectar herramientas externas a un LLM), lo que permite adjuntar al agente herramientas de servicios externos como datos financieros.
Conjunto de herramientas ampliado: incluye por defecto Google Search, lectura de contenido de URL y ejecución de código. También se pueden agregar opcionalmente búsqueda en archivos (sobre documentos subidos) y servidores MCP.
Entrada multimodal: además de texto, se pueden enviar imágenes, PDF y archivos de audio como parte del contexto de investigación.
Streaming en tiempo real y resúmenes del razonamiento: se puede recibir el progreso de la investigación en tiempo real por streaming, y si se activa thinking_summaries="auto", también se puede ver un resumen del proceso intermedio de razonamiento del agente.

Ejemplos principales de código

Este es el uso más básico. Se inicia una tarea asíncrona con background=True y se consulta por polling si terminó cada 10 segundos.

import time  
from google import genai  
  
client = genai.Client()  
  
interaction = client.interactions.create(  
    input="Research the history of Google TPUs.",  
    agent="deep-research-preview-04-2026",  
    background=True,  
)  
  
while True:  
    interaction = client.interactions.get(interaction.id)  
    if interaction.status == "completed":  
        print(interaction.outputs[-1].text)  
        break  
    elif interaction.status == "failed":  
        print(f"Research failed: {interaction.error}")  
        break  
    time.sleep(10)

Este es el flujo de planificación colaborativa. Primero se recibe solo el plan con collaborative_planning=True, luego se da retroalimentación y, al final, hay que cambiarlo a False para que comience la investigación real. Ojo: si solo se envía un texto como "go ahead" sin cambiar la bandera, no se generará el informe.

# Paso 1: solicitar el plan  
plan = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input="Research Google TPUs vs competitor hardware.",  
    agent_config={"type": "deep-research", "collaborative_planning": True},  
    background=True,  
)  
while (result := client.interactions.get(id=plan.id)).status != "completed":  
    time.sleep(5)  
print(result.outputs[-1].text)  # salida del plan  
  
# Paso 2: modificar el plan (continuar la conversación con previous_interaction_id)  
refined = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input="Add a section comparing power efficiency.",  
    agent_config={"type": "deep-research", "collaborative_planning": True},  
    previous_interaction_id=plan.id,  
    background=True,  
)  
while (result := client.interactions.get(id=refined.id)).status != "completed":  
    time.sleep(5)  
print(result.outputs[-1].text)  # plan modificado  
  
# Paso 3: aprobar y ejecutar (es obligatorio cambiar a collaborative_planning=False)  
report = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input="Plan looks good!",  
    agent_config={"type": "deep-research", "collaborative_planning": False},  
    previous_interaction_id=refined.id,  
    background=True,  
)  
while (result := client.interactions.get(id=report.id)).status != "completed":  
    time.sleep(5)  
print(result.outputs[-1].text)  # informe final

Este es un ejemplo de generación de gráficos y entrada multimodal. Conviene activar la opción de visualización, pero se obtienen mejores resultados si en el prompt se especifica con detalle qué tipo de gráfico se desea.

# Investigación con gráficos  
interaction = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input="Analyze global semiconductor market trends. Include charts showing market share changes.",  
    agent_config={"type": "deep-research", "visualization": "auto"},  
    background=True,  
)  
  
# Investigación multimodal pasando un paper en PDF como contexto  
interaction = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input=[  
        {"type": "text", "text": "What has been the impact of this research paper?"},  
        {"type": "document", "uri": "https://arxiv.org/pdf/1706.03762";, "mime_type": "application/pdf"},  
    ],  
    background=True,  
)

Este es un ejemplo de conexión de un servidor MCP para proporcionar al agente datos financieros externos. También se puede limitar con allowed_tools qué herramientas puede invocar el agente.

interaction = client.interactions.create(  
    agent="deep-research-preview-04-2026",  
    input="Research how recent geopolitical events influenced USD interest rates",  
    tools=[  
        {  
            "type": "mcp_server",  
            "name": "Finance Data Provider",  
            "url": "https://finance.example.com/mcp";,  
            "headers": {"Authorization": "Bearer my-token"},  
        }  
    ],  
    background=True,  
)

Diferenciadores

Lo que destaca es que, en lugar de limitarse a un RAG simple (generación aumentada con recuperación, una técnica que busca documentos externos y los pasa al LLM) o a una sola ronda de preguntas y respuestas, automatiza con una sola API un flujo de investigación de largo aliento basado en planificación, búsqueda y síntesis. En particular, la planificación colaborativa muestra bien la filosofía de diseño de "el agente se encarga, pero la dirección la define la persona".
Como permite combinar búsqueda web pública y búsqueda en documentos privados solo con configurar herramientas, también se abre la posibilidad de usarlo para investigación basada en materiales internos de empresas.

Implicaciones

A medida que los agentes de investigación con IA bajan al nivel de API, ahora es posible integrar directamente funciones de "deep research" en aplicaciones sin necesidad de un framework de agentes aparte. Sin embargo, la estructura de API asíncrona basada en polling exige un cambio de patrón de diseño para los desarrolladores acostumbrados a llamadas sincrónicas a LLM, y todo indica que uno de los retos clave en una adopción real será cómo manejar desde la UX una latencia de respuesta de varios minutos.

Google publica la API de Gemini Deep Research Agent

Lecturas relacionadas

Aún no hay comentarios.