21 puntos por xguru 2025-03-12 | Aún no hay comentarios. | Compartir por WhatsApp
  • Búsqueda web: busca información reciente en la web y devuelve URLs citadas
  • Búsqueda de archivos: búsqueda semántica/por palabras clave dentro de la lista de archivos subidos
  • Computer Use: controla una computadora y realiza tareas
  • Responses API: interfaz avanzada de respuestas integradas. Acepta entradas de texto/imagen y permite usar búsqueda web, búsqueda de archivos y CUA
  • Agents SDK: framework de orquestación para desarrollar agentes
  • Algunos desarrolladores/empresas elegibles pueden compartir prompts con OpenAI para ayudar a mejorar los modelos
    • Hasta finales de abril de este año, se puede usar gratis hasta 1 millón de tokens por día para gpt-4.5-preview, gpt-4o y o1, y hasta 10 millones de tokens para gpt-4o-mini, o1-mini y o3-mini
    • La elegibilidad puede consultarse en el panel para desarrolladores de OpenAI

Web Search

  • Puede buscar información directamente en la web para ofrecer datos actualizados en ChatGPT
  • A través de Chat Completions API se pueden usar directamente modelos ajustados finamente y la herramienta de búsqueda
  • Cómo se usa la búsqueda web en Chat Completions API
    • El modelo siempre busca información reciente en la web antes de responder
    • Si quieres que use la herramienta de búsqueda web (web_search_preview) solo cuando sea necesario, debes cambiar a Responses API
  • Modelos que pueden usar búsqueda web
    • gpt-4o-search-preview
    • gpt-4o-mini-search-preview

File Search

  • Permite que el modelo busque información relevante en los archivos del usuario antes de generar una respuesta
  • Está disponible en Responses API y recupera información desde la base de conocimiento de archivos subidos mediante búsqueda semántica y búsqueda por palabras clave
  • Uso de Vector Store y búsqueda semántica
    • Al crear un almacén vectorial (Vector Store) y subir archivos, se puede ampliar el conocimiento base del modelo
    • Es una herramienta administrada por OpenAI, por lo que el usuario no necesita implementar el código por su cuenta
    • Si el modelo considera que lo necesita, llama automáticamente la herramienta para buscar información en los archivos y generar la respuesta
  • Cómo usarlo
    • Primero hay que configurar la base de conocimiento en un almacén vectorial y subir archivos
    • Después de configurar el almacén vectorial, se puede agregar la herramienta file_search a la lista de herramientas disponibles para el modelo
    • Actualmente solo se puede buscar en un almacén vectorial a la vez (solo se puede usar un único ID de almacén vectorial)

Computer Use

  • Basado en el modelo Computer-Using Agent (CUA), que puede realizar tareas en la computadora del usuario
  • Combina el procesamiento visual y la capacidad de razonamiento avanzado de GPT-4o para controlar interfaces de computadora y ejecutar tareas
  • Se ofrece a través de Responses API y no puede usarse en Chat Completions
  • Actualmente está en beta, por lo que puede haber vulnerabilidades o errores. No se recomienda usarlo en entornos totalmente autenticados ni para tareas críticas
  • Cómo funciona
    • El modelo envía comandos de acciones en la computadora como clic (x, y) y entrada (texto)
    • El código del usuario ejecuta esas acciones en un entorno de computadora o navegador y devuelve capturas de pantalla con el resultado
    • El modelo entiende el estado del entorno a partir de las capturas y propone la siguiente acción
    • Mediante un ciclo continuo, puede automatizar varias acciones como hacer clic, escribir y desplazarse
  • Ejemplos de uso: reservar vuelos, buscar productos, completar formularios

Responses API

  • La interfaz de modelos más avanzada de OpenAI
  • Soporta entradas de texto e imagen y genera salida de texto
  • Ofrece interacciones con estado que permiten usar la salida de una respuesta anterior como la siguiente entrada
  • Capacidad de expansión funcional
    • Se pueden ampliar las capacidades del modelo mediante herramientas integradas
      • File Search – permite búsquedas semánticas y por palabras clave en archivos subidos
      • Web Search – permite buscar información reciente en la web
      • Computer Use – permite controlar interfaces de computadora y ejecutar tareas automatizadas
    • Function Calling – permite acceder a sistemas y datos externos
      • Es posible llamar funciones de Python e interactuar con sistemas externos

Agents SDK

  • Permite desarrollar apps de IA basadas en agentes con un paquete simple y fácil de usar, sin abstracciones complejas
  • Es una versión mejorada a nivel producción de la plataforma experimental anterior, Swarm
  • Componentes principales (primitives):
    • Agents – agentes basados en LLM con instrucciones y herramientas
    • Handoffs – delegan tareas específicas a otro agente
    • Guardrails – validan y filtran los valores de entrada del agente
  • Integración con Python y funciones potentes
    • Al usarse con Python, permite establecer relaciones potentes entre herramientas e implementar flujos de trabajo complejos
    • Incluye funciones de tracing para visualización y depuración
    • También soporta evaluación, depuración y ajuste fino del modelo
  • Características principales de Agents SDK
    • Principios de diseño
      • Lo bastante potente en funcionalidades, pero con poco que aprender para familiarizarse rápido
      • Buen rendimiento por defecto, con posibilidad de ajuste fino cuando sea necesario
    • Funciones básicas
      • Agent Loop: un ciclo integrado maneja automáticamente la llamada de herramientas → procesamiento de resultados → generación de respuesta del LLM → finalización
      • Diseño Python-first: permite conectar y orquestar agentes usando directamente las funciones del lenguaje Python
      • Handoffs: permite delegar y coordinar tareas entre múltiples agentes
      • Guardrails: realiza validación de entradas y verificaciones en paralelo; puede terminar anticipadamente si ocurre un error
      • Function Tools: convierte automáticamente funciones de Python en herramientas → genera y valida esquemas automáticamente
      • Tracing: con trazado integrado, permite visualizar flujos de trabajo, depurar, evaluar y mejorar

Aún no hay comentarios.

Aún no hay comentarios.