- Búsqueda web: busca información reciente en la web y devuelve URLs citadas
- Búsqueda de archivos: búsqueda semántica/por palabras clave dentro de la lista de archivos subidos
- Computer Use: controla una computadora y realiza tareas
- Responses API: interfaz avanzada de respuestas integradas. Acepta entradas de texto/imagen y permite usar búsqueda web, búsqueda de archivos y CUA
- Agents SDK: framework de orquestación para desarrollar agentes
- Algunos desarrolladores/empresas elegibles pueden compartir prompts con OpenAI para ayudar a mejorar los modelos
- Hasta finales de abril de este año, se puede usar gratis hasta 1 millón de tokens por día para
gpt-4.5-preview, gpt-4o y o1, y hasta 10 millones de tokens para gpt-4o-mini, o1-mini y o3-mini
- La elegibilidad puede consultarse en el panel para desarrolladores de OpenAI
- Puede buscar información directamente en la web para ofrecer datos actualizados en ChatGPT
- A través de Chat Completions API se pueden usar directamente modelos ajustados finamente y la herramienta de búsqueda
- Cómo se usa la búsqueda web en Chat Completions API
- El modelo siempre busca información reciente en la web antes de responder
- Si quieres que use la herramienta de búsqueda web (
web_search_preview) solo cuando sea necesario, debes cambiar a Responses API
- Modelos que pueden usar búsqueda web
gpt-4o-search-preview
gpt-4o-mini-search-preview
- Permite que el modelo busque información relevante en los archivos del usuario antes de generar una respuesta
- Está disponible en Responses API y recupera información desde la base de conocimiento de archivos subidos mediante búsqueda semántica y búsqueda por palabras clave
- Uso de Vector Store y búsqueda semántica
- Al crear un almacén vectorial (Vector Store) y subir archivos, se puede ampliar el conocimiento base del modelo
- Es una herramienta administrada por OpenAI, por lo que el usuario no necesita implementar el código por su cuenta
- Si el modelo considera que lo necesita, llama automáticamente la herramienta para buscar información en los archivos y generar la respuesta
- Cómo usarlo
- Primero hay que configurar la base de conocimiento en un almacén vectorial y subir archivos
- Después de configurar el almacén vectorial, se puede agregar la herramienta file_search a la lista de herramientas disponibles para el modelo
- Actualmente solo se puede buscar en un almacén vectorial a la vez (solo se puede usar un único ID de almacén vectorial)
- Basado en el modelo Computer-Using Agent (CUA), que puede realizar tareas en la computadora del usuario
- Combina el procesamiento visual y la capacidad de razonamiento avanzado de GPT-4o para controlar interfaces de computadora y ejecutar tareas
- Se ofrece a través de Responses API y no puede usarse en Chat Completions
- Actualmente está en beta, por lo que puede haber vulnerabilidades o errores. No se recomienda usarlo en entornos totalmente autenticados ni para tareas críticas
- Cómo funciona
- El modelo envía comandos de acciones en la computadora como clic (x, y) y entrada (texto)
- El código del usuario ejecuta esas acciones en un entorno de computadora o navegador y devuelve capturas de pantalla con el resultado
- El modelo entiende el estado del entorno a partir de las capturas y propone la siguiente acción
- Mediante un ciclo continuo, puede automatizar varias acciones como hacer clic, escribir y desplazarse
- Ejemplos de uso: reservar vuelos, buscar productos, completar formularios
- La interfaz de modelos más avanzada de OpenAI
- Soporta entradas de texto e imagen y genera salida de texto
- Ofrece interacciones con estado que permiten usar la salida de una respuesta anterior como la siguiente entrada
- Capacidad de expansión funcional
- Se pueden ampliar las capacidades del modelo mediante herramientas integradas
- File Search – permite búsquedas semánticas y por palabras clave en archivos subidos
- Web Search – permite buscar información reciente en la web
- Computer Use – permite controlar interfaces de computadora y ejecutar tareas automatizadas
- Function Calling – permite acceder a sistemas y datos externos
- Es posible llamar funciones de Python e interactuar con sistemas externos
- Permite desarrollar apps de IA basadas en agentes con un paquete simple y fácil de usar, sin abstracciones complejas
- Es una versión mejorada a nivel producción de la plataforma experimental anterior, Swarm
- Componentes principales (primitives):
- Agents – agentes basados en LLM con instrucciones y herramientas
- Handoffs – delegan tareas específicas a otro agente
- Guardrails – validan y filtran los valores de entrada del agente
- Integración con Python y funciones potentes
- Al usarse con Python, permite establecer relaciones potentes entre herramientas e implementar flujos de trabajo complejos
- Incluye funciones de tracing para visualización y depuración
- También soporta evaluación, depuración y ajuste fino del modelo
- Características principales de Agents SDK
- Principios de diseño
- Lo bastante potente en funcionalidades, pero con poco que aprender para familiarizarse rápido
- Buen rendimiento por defecto, con posibilidad de ajuste fino cuando sea necesario
- Funciones básicas
- Agent Loop: un ciclo integrado maneja automáticamente la llamada de herramientas → procesamiento de resultados → generación de respuesta del LLM → finalización
- Diseño Python-first: permite conectar y orquestar agentes usando directamente las funciones del lenguaje Python
- Handoffs: permite delegar y coordinar tareas entre múltiples agentes
- Guardrails: realiza validación de entradas y verificaciones en paralelo; puede terminar anticipadamente si ocurre un error
- Function Tools: convierte automáticamente funciones de Python en herramientas → genera y valida esquemas automáticamente
- Tracing: con trazado integrado, permite visualizar flujos de trabajo, depurar, evaluar y mejorar
Aún no hay comentarios.