OpenAI presenta herramientas para desarrolladores para crear agentes de IA

xguru · 2025-03-12T09:08:31+09:00

Búsqueda web: busca información reciente en la web y devuelve URLs citadas Búsqueda de archivos: búsqueda semántica/por palabras clave dentro de la lista de archivos subidos Computer Use: controla una computadora y realiza tareas Responses API: interfaz avanzada de respuestas integradas. Acepta entradas de texto/imagen y permite usar búsqueda web, búsqueda de archivos y CUA Agents SDK: framework de orquestación para desarrollar agentes Algunos desarrolladores/empresas elegibles pueden compartir prompts con OpenAI para ayudar a mejorar los modelos Hasta finales de abril de este año, se puede usar gratis hasta 1 millón de tokens por día para gpt-4.5-preview, gpt-4o y o1, y hasta 10 millones de tokens para gpt-4o-mini, o1-mini y o3-mini La elegibilidad puede consultarse en el panel para desarrolladores de OpenAI Publicación de OpenAI: New tools for building agents Web Search Puede buscar información directamente en la web para ofrecer datos actualizados en ChatGPT A través de Chat Completions API se pueden usar directamente modelos ajustados finamente y la herramienta de búsqueda Cómo se usa la búsqueda web en Chat Completions API El modelo siempre busca información reciente en la web antes de responder Si quieres que use la herramienta de búsqueda web (web_search_preview) solo cuando sea necesario, debes cambiar a Responses API Modelos que pueden usar búsqueda web gpt-4o-search-preview gpt-4o-mini-search-preview File Search Permite que el modelo busque información relevante en los archivos del usuario antes de generar una respuesta Está disponible en Responses API y recupera información desde la base de conocimiento de archivos subidos mediante búsqueda semántica y búsqueda por palabras clave Uso de Vector Store y búsqueda semántica Al crear un almacén vectorial (Vector Store) y subir archivos, se puede ampliar el conocimiento base del modelo Es una herramienta administrada por OpenAI, por lo que el usuario no necesita implementar el código por su cuenta Si el modelo considera que lo necesita, llama automáticamente la herramienta para buscar información en los archivos y generar la respuesta Cómo usarlo Primero hay que configurar la base de conocimiento en un almacén vectorial y subir archivos Después de configurar el almacén vectorial, se puede agregar la herramienta file_search a la lista de herramientas disponibles para el modelo Actualmente solo se puede buscar en un almacén vectorial a la vez (solo se puede usar un único ID de almacén vectorial) Computer Use Basado en el modelo Computer-Using Agent (CUA), que puede realizar tareas en la computadora del usuario Combina el procesamiento visual y la capacidad de razonamiento avanzado de GPT-4o para controlar interfaces de computadora y ejecutar tareas Se ofrece a través de Responses API y no puede usarse en Chat Completions Actualmente está en beta, por lo que puede haber vulnerabilidades o errores. No se recomienda usarlo en entornos totalmente autenticados ni para tareas críticas Cómo funciona El modelo envía comandos de acciones en la computadora como clic (x, y) y entrada (texto) El código del usuario ejecuta esas acciones en un entorno de computadora o navegador y devuelve capturas de pantalla con el resultado El modelo entiende el estado del entorno a partir de las capturas y propone la siguiente acción Mediante un ciclo continuo, puede automatizar varias acciones como hacer clic, escribir y desplazarse Ejemplos de uso: reservar vuelos, buscar productos, completar formularios Responses API La interfaz de modelos más avanzada de OpenAI Soporta entradas de texto e imagen y genera salida de texto Ofrece interacciones con estado que permiten usar la salida de una respuesta anterior como la siguiente entrada Capacidad de expansión funcional Se pueden ampliar las capacidades del modelo mediante herramientas integradas File Search – permite búsquedas semánticas y por palabras clave en archivos subidos Web Search – permite buscar información reciente en la web Computer Use – permite controlar interfaces de computadora y ejecutar tareas automatizadas Function Calling – permite acceder a sistemas y datos externos Es posible llamar funciones de Python e interactuar con sistemas externos Agents SDK Permite desarrollar apps de IA basadas en agentes con un paquete simple y fácil de usar, sin abstracciones complejas Es una versión mejorada a nivel producción de la plataforma experimental anterior, Swarm Componentes principales (primitives): Agents – agentes basados en LLM con instrucciones y herramientas Handoffs – delegan tareas específicas a otro agente Guardrails – validan y filtran los valores de entrada del agente Integración con Python y funciones potentes Al usarse con Python, permite establecer relaciones potentes entre herramientas e implementar flujos de trabajo complejos Incluye funciones de tracing para visualización y depuración También soporta evaluación, depuración y ajuste fino del modelo Características principales de Agents SDK Principios de diseño Lo bastante potente en funcionalidades, pero con poco que aprender para familiarizarse rápido Buen rendimiento por defecto, con posibilidad de ajuste fino cuando sea necesario Funciones básicas Agent Loop: un ciclo integrado maneja automáticamente la llamada de herramientas → procesamiento de resultados → generación de respuesta del LLM → finalización Diseño Python-first: permite conectar y orquestar agentes usando directamente las funciones del lenguaje Python Handoffs: permite delegar y coordinar tareas entre múltiples agentes Guardrails: realiza validación de entradas y verificaciones en paralelo; puede terminar anticipadamente si ocurre un error Function Tools: convierte automáticamente funciones de Python en herramientas → genera y valida esquemas automáticamente Tracing: con trazado integrado, permite visualizar flujos de trabajo, depurar, evaluar y mejorar

(x.com/OpenAIDevs)

21 puntos por xguru 2025-03-12 | Aún no hay comentarios. | Compartir por WhatsApp

Búsqueda web: busca información reciente en la web y devuelve URLs citadas
Búsqueda de archivos: búsqueda semántica/por palabras clave dentro de la lista de archivos subidos
Computer Use: controla una computadora y realiza tareas
Responses API: interfaz avanzada de respuestas integradas. Acepta entradas de texto/imagen y permite usar búsqueda web, búsqueda de archivos y CUA
Agents SDK: framework de orquestación para desarrollar agentes

Algunos desarrolladores/empresas elegibles pueden compartir prompts con OpenAI para ayudar a mejorar los modelos
- Hasta finales de abril de este año, se puede usar gratis hasta 1 millón de tokens por día para gpt-4.5-preview, gpt-4o y o1, y hasta 10 millones de tokens para gpt-4o-mini, o1-mini y o3-mini
- La elegibilidad puede consultarse en el panel para desarrolladores de OpenAI

Publicación de OpenAI: New tools for building agents

Web Search

Puede buscar información directamente en la web para ofrecer datos actualizados en ChatGPT
A través de Chat Completions API se pueden usar directamente modelos ajustados finamente y la herramienta de búsqueda
Cómo se usa la búsqueda web en Chat Completions API
- El modelo siempre busca información reciente en la web antes de responder
- Si quieres que use la herramienta de búsqueda web (web_search_preview) solo cuando sea necesario, debes cambiar a Responses API
Modelos que pueden usar búsqueda web
- gpt-4o-search-preview
- gpt-4o-mini-search-preview

File Search

Permite que el modelo busque información relevante en los archivos del usuario antes de generar una respuesta
Está disponible en Responses API y recupera información desde la base de conocimiento de archivos subidos mediante búsqueda semántica y búsqueda por palabras clave
Uso de Vector Store y búsqueda semántica
- Al crear un almacén vectorial (Vector Store) y subir archivos, se puede ampliar el conocimiento base del modelo
- Es una herramienta administrada por OpenAI, por lo que el usuario no necesita implementar el código por su cuenta
- Si el modelo considera que lo necesita, llama automáticamente la herramienta para buscar información en los archivos y generar la respuesta
Cómo usarlo
- Primero hay que configurar la base de conocimiento en un almacén vectorial y subir archivos
- Después de configurar el almacén vectorial, se puede agregar la herramienta file_search a la lista de herramientas disponibles para el modelo
- Actualmente solo se puede buscar en un almacén vectorial a la vez (solo se puede usar un único ID de almacén vectorial)

Computer Use

Basado en el modelo Computer-Using Agent (CUA), que puede realizar tareas en la computadora del usuario
Combina el procesamiento visual y la capacidad de razonamiento avanzado de GPT-4o para controlar interfaces de computadora y ejecutar tareas
Se ofrece a través de Responses API y no puede usarse en Chat Completions
Actualmente está en beta, por lo que puede haber vulnerabilidades o errores. No se recomienda usarlo en entornos totalmente autenticados ni para tareas críticas
Cómo funciona
- El modelo envía comandos de acciones en la computadora como clic (x, y) y entrada (texto)
- El código del usuario ejecuta esas acciones en un entorno de computadora o navegador y devuelve capturas de pantalla con el resultado
- El modelo entiende el estado del entorno a partir de las capturas y propone la siguiente acción
- Mediante un ciclo continuo, puede automatizar varias acciones como hacer clic, escribir y desplazarse
Ejemplos de uso: reservar vuelos, buscar productos, completar formularios

Responses API

La interfaz de modelos más avanzada de OpenAI
Soporta entradas de texto e imagen y genera salida de texto
Ofrece interacciones con estado que permiten usar la salida de una respuesta anterior como la siguiente entrada
Capacidad de expansión funcional
- Se pueden ampliar las capacidades del modelo mediante herramientas integradas
  - File Search – permite búsquedas semánticas y por palabras clave en archivos subidos
  - Web Search – permite buscar información reciente en la web
  - Computer Use – permite controlar interfaces de computadora y ejecutar tareas automatizadas
- Function Calling – permite acceder a sistemas y datos externos
  - Es posible llamar funciones de Python e interactuar con sistemas externos

Agents SDK

Permite desarrollar apps de IA basadas en agentes con un paquete simple y fácil de usar, sin abstracciones complejas
Es una versión mejorada a nivel producción de la plataforma experimental anterior, Swarm
Componentes principales (primitives):
- Agents – agentes basados en LLM con instrucciones y herramientas
- Handoffs – delegan tareas específicas a otro agente
- Guardrails – validan y filtran los valores de entrada del agente
Integración con Python y funciones potentes
- Al usarse con Python, permite establecer relaciones potentes entre herramientas e implementar flujos de trabajo complejos
- Incluye funciones de tracing para visualización y depuración
- También soporta evaluación, depuración y ajuste fino del modelo
Características principales de Agents SDK
- Principios de diseño
  - Lo bastante potente en funcionalidades, pero con poco que aprender para familiarizarse rápido
  - Buen rendimiento por defecto, con posibilidad de ajuste fino cuando sea necesario
- Funciones básicas
  - Agent Loop: un ciclo integrado maneja automáticamente la llamada de herramientas → procesamiento de resultados → generación de respuesta del LLM → finalización
  - Diseño Python-first: permite conectar y orquestar agentes usando directamente las funciones del lenguaje Python
  - Handoffs: permite delegar y coordinar tareas entre múltiples agentes
  - Guardrails: realiza validación de entradas y verificaciones en paralelo; puede terminar anticipadamente si ocurre un error
  - Function Tools: convierte automáticamente funciones de Python en herramientas → genera y valida esquemas automáticamente
  - Tracing: con trazado integrado, permite visualizar flujos de trabajo, depurar, evaluar y mejorar