18 puntos por xguru 2025-10-07 | 1 comentarios | Compartir por WhatsApp

Nueva App dentro de ChatGPT y Apps SDK

  • Se anunció una función para usar apps conversacionales dentro de ChatGPT
  • Las nuevas apps están diseñadas para funcionar de forma natural dentro del flujo de la conversación, por lo que se sugieren automáticamente cuando el usuario las necesita
    • Ejemplo: “Spotify, créame una playlist para la fiesta de este fin de semana” → la app se ejecuta automáticamente y ofrece resultados basados en el contexto
    • Durante una conversación sobre bienes raíces, se puede sugerir la app de Zillow para mostrar de inmediato un mapa de propiedades según el presupuesto
    • Convertir en diapositivas un esquema creado durante la conversación con Canva
    • Tomar un curso de Coursera mientras se le pide a ChatGPT una explicación complementaria
  • Las apps combinan comandos en lenguaje natural con una interfaz visual, ofreciendo una experiencia de uso más intuitiva que las apps web tradicionales
  • Booking.com, Canva, Coursera, Figma, Expedia, Spotify y Zillow son las apps asociadas del primer lanzamiento
    • Se planea agregar 11 apps más antes de fin de año: DoorDash, Khan Academy, Instacart, Peloton, OpenTable, Target, Uber,...
  • El proceso de envío y revisión de apps comenzará a finales de este año, y también se incorporará gradualmente a las versiones ChatGPT Business, Enterprise y Edu
  • Se creó un nuevo directorio de apps para que los usuarios puedan explorar y buscar apps, y las que destaquen por su diseño y funcionalidad tendrán recomendaciones dentro de la conversación y mayor visibilidad
  • Apps SDK

    • Los desarrolladores pueden crear y probar sus propias apps con la versión preview de Apps SDK
    • El SDK está basado en una estructura que extiende Model Context Protocol (MCP) y permite definir tanto la lógica como la interfaz de la app
    • El SDK se publica como open source, por lo que puede ejecutarse con el mismo estándar también en plataformas fuera de ChatGPT
    • Los desarrolladores pueden integrarlo directamente con su backend existente y admitir inicio de sesión y acceso a funciones de pago
  • Antes de fin de año, ChatGPT incorporará un modelo de monetización para apps y una función de pago inmediato basada en Agentic Commerce Protocol
  • Con esto, ChatGPT evolucionará más allá de un simple asistente conversacional hacia una plataforma integrada que interactúa con un ecosistema de apps

Presentación de AgentKit: un conjunto completo de herramientas para desarrollar, desplegar y optimizar agentes

  • AgentKit es la herramienta sucesora de Responses API y Agents SDK, una plataforma integrada que simplifica el proceso de construcción de agentes y mejora su confiabilidad
  • Antes era necesario gestionar por separado conectores, pipelines de evaluación, ajuste de prompts y construcción del frontend, pero ahora todo eso puede administrarse de forma unificada en un solo entorno
  • Agent Builder: herramienta de diseño visual de workflows

    • Agent Builder ofrece un entorno con un canvas visual tipo drag and drop para estructurar y versionar la lógica del agente
    • Está optimizado para iteración rápida, con ejecución de vista previa, configuración de evaluaciones inline y ajustes de guardrails personalizados
    • Ramp afirmó que con esta herramienta completó en unas cuantas horas una orquestación compleja que antes tomaba meses, y redujo su ciclo de desarrollo en 70%
    • La japonesa LY Corporation también construyó su primer workflow multiagente en 2 horas
    • Guardrails: protección segura para agentes

      • Guardrails es una capa de seguridad open source que ofrece funciones de enmascaramiento de PII, detección de jailbreaks y bloqueo de respuestas anómalas
      • Puede usarse de manera independiente o integrado en Agent Builder mediante las bibliotecas Guardrails para Python y JavaScript
  • Connector Registry: gestión unificada de integración de datos

    • Connector Registry es un panel de administración unificado que centraliza la gestión de conexiones de datos entre múltiples workspaces y organizaciones
    • Incluye conectores nativos como Dropbox, Google Drive, SharePoint y Microsoft Teams, además de compatibilidad con MCP de terceros
    • Los administradores pueden gestionar de forma unificada dominios, SSO y organizaciones de API mediante Global Admin Console, requisito indispensable para activar Connector Registry
  • ChatKit: toolkit con UI conversacional integrada

    • ChatKit es un toolkit para integrar fácilmente una UI de chat para agentes dentro de un producto
    • Admite automáticamente respuestas en streaming, gestión de hilos de conversación y visualización del proceso de razonamiento del modelo
    • Puede incorporarse directamente en la web o en apps, y permite personalización del tema para adaptarlo al diseño de la marca
    • Ya se está usando en distintos escenarios como asistentes de conocimiento, guías de onboarding y apoyo a investigación, incluido el agente de soporte al cliente de HubSpot
  • Evals: mejoras en la medición de desempeño

    • Para construir agentes más confiables, se agregan estas cuatro nuevas funciones a Evals
      • Datasets: permite construir y ampliar rápidamente conjuntos de evaluación con calificadores automáticos y anotación humana
      • Trace grading: evalúa la ejecución completa del workflow para detectar debilidades automáticamente
      • Automated prompt optimization: mejora automática de prompts basada en resultados de evaluación
      • Third-party model support: compatibilidad para evaluar también modelos externos
  • Reinforcement Fine-Tuning mejorado

    • RFT permite a los desarrolladores ajustar los modelos de razonamiento de OpenAI para objetivos específicos
    • Ya está disponible de forma general en el modelo o4-mini, y el RFT para GPT-5 está en beta privada, con decenas de empresas probándolo
    • Nuevas funciones beta
      • Custom tool calls: entrena al modelo para invocar la herramienta adecuada en el momento correcto
      • Custom graders: permite configurar criterios de evaluación personalizados para casos de uso específicos
  • ChatKit y Evals están disponibles de forma general para todos los desarrolladores desde hoy. Agent Builder y Connector Registry se ofrecerán gradualmente en beta y están incluidos dentro del esquema de precios estándar de los modelos API
    • Próximamente también se agregarán Workflows API y opciones de despliegue de agentes dentro de ChatGPT

Lanzamiento oficial de Codex: expansión del agente de código integrado para equipos de desarrollo

  • OpenAI anunció el lanzamiento oficial de Codex, su plataforma de agente de código basada en la nube, y añadió tres funciones clave: integración con Slack, Codex SDK y herramientas de administración
  • Codex funciona de forma integrada en entornos IDE, CLI y nube con base en el modelo GPT-5-Codex
    • Tras su lanzamiento, su uso diario aumentó 10 veces frente a agosto, procesando 40 billones de tokens en 3 semanas, lo que lo posiciona como uno de los modelos de crecimiento más rápido
  • Dentro de OpenAI, más del 70% de los ingenieros de toda la empresa usan Codex, lo que elevó en 70% el volumen semanal de PR fusionados, y Codex realiza automáticamente la mayoría de las revisiones de código
  • Integración con Slack

    • Si se etiqueta a @Codex en un canal del equipo, Codex recopila automáticamente el contexto de la conversación y responde eligiendo el entorno adecuado
    • Los resultados se enlazan mediante links de Codex Cloud, lo que permite fusionar cambios, iterar correcciones y descargar el trabajo en local
    • La integración con Slack permite realizar de forma natural revisiones de código, correcciones automáticas y solicitudes de ejecución de builds dentro de un entorno de desarrollo colaborativo
  • Codex SDK

    • Codex SDK es un kit de desarrollo que permite reutilizar en aplicaciones externas la implementación open source del agente de Codex CLI
    • El SDK estará disponible primero para TypeScript, con soporte para otros lenguajes más adelante
    • Funciones principales
      • Parsear respuestas del agente con salida estructurada
      • Gestión de contexto integrada para reanudar sesiones
      • Soporte para automatizar pipelines de CI/CD mediante integración con GitHub Action
      • En entornos de shell puede ejecutarse directamente con el comando codex exec
    • Instacart integró el SDK con su plataforma Olive para construir un entorno de desarrollo automatizado end-to-end, y confirmó mejoras en la eliminación de deuda técnica y en la calidad del código
  • Fortalecimiento de funciones de administración

    • Las funciones de control y eliminación de entornos permiten gestionar datos sensibles y limpiar entornos innecesarios
    • Se ofrece un dashboard para analizar el uso de Codex y la calidad de las revisiones de código en CLI, IDE y web
    • Los administradores pueden controlar centralmente las políticas y configuraciones de uso local de Codex, lo que lo hace adecuado para operar en organizaciones de gran escala
    • Cisco redujo con Codex hasta en 50% el tiempo de revisión de PR complejos, ayudando a que los ingenieros se enfoquen en tareas más estratégicas
  • La integración con Slack y Codex SDK están disponibles de inmediato en los planes ChatGPT Plus, Pro, Business, Edu y Enterprise
  • A partir del 20 de octubre, la carga de trabajo de Codex Cloud se incluirá en el cálculo de uso
    • Plan Plus: aproximadamente 30~150 mensajes locales o 5~40 trabajos en la nube por cada 5 horas
    • Plan Pro: aproximadamente 300~1,500 mensajes locales o 50~400 trabajos en la nube por cada 5 horas
    • Si se supera el límite, el uso de Codex se suspenderá temporalmente, y podrá volver a utilizarse una vez que se reinicie el consumo
    • Code Review no se incluye temporalmente en el uso
      • Solo se contabiliza como uso de Code Review cuando se usa la etiqueta @codex review en GitHub o se activa la función de revisión automática

Lanzamiento de la API de generación de video con Sora

  • Sora es el modelo de medios generativos de próxima generación de OpenAI, capaz de crear videos realistas y dinámicos con audio incluido
  • Fue desarrollado con base en investigación de multi-modal diffusion, aprendiendo percepción del espacio 3D, movimiento de cámara y consistencia en el movimiento físico
  • Los desarrolladores pueden usarlo para generar contenido automáticamente en formato texto→video o imagen→video
  • La nueva Video API está compuesta por estos cinco endpoints principales
    • Create video: crea un nuevo trabajo de renderizado a partir de un prompt de texto o de un video existente
    • Get video status: consulta el estado de avance del renderizado
    • Download video: descarga el video MP4 completado
    • List videos: administra la lista de videos generados y admite paginación
    • Delete videos: elimina videos específicos del almacenamiento
  • La API permite automatizar por programación tareas de generación, gestión, ampliación y remix de video
  • Tipos de modelo

    • Sora 2: para iteración y experimentación rápida

      • Es un modelo centrado en velocidad y flexibilidad, adecuado para pruebas de concepto o creación de rough cuts
      • Permite obtener resultados en poco tiempo, por lo que puede utilizarse para contenido de redes sociales o videos prototipo
      • Se enfoca más en explorar ideas y verificar dirección visual que en lograr calidad perfecta
    • Sora 2 Pro: para producción de alta calidad

      • Modelo diseñado con el objetivo de lograr una calidad de nivel cinematográfico
      • La velocidad de renderizado es más lenta y el costo más alto, pero mejora notablemente la estabilidad y el detalle del video
      • Es adecuado para videos de marketing en alta resolución, assets de marca y escenas con estilo cinematográfico

GPT-5 Pro disponible vía API

  • GPT-5 Pro es el modelo de razonamiento de más alto nivel de OpenAI, y utiliza mayor capacidad de cómputo para generar respuestas más sofisticadas y precisas
  • Es más lento que GPT-5 normal, pero ofrece mejor resolución de problemas complejos y una calidad más consistente
  • Es un modelo exclusivo de Responses API, compatible con solicitudes conversacionales de múltiples turnos y funciones avanzadas de API, y solo admite el modo reasoning.effort: high
  • No admite Code Interpreter ni streaming en tiempo real
  • Las solicitudes complejas pueden requerir varios minutos de procesamiento, y para ejecuciones prolongadas se recomienda usar Background Mode
  • Ventana de contexto de 400,000 tokens, salida máxima de 272,000 tokens, Knowledge Cutoff del 30 de septiembre de 2024
  • Precios (Pricing): por 1 millón de tokens
    • Entrada (Input): $15.00 (incluye entrada de imagen)
    • Salida (Output): $120.00

Modelo GPT Realtime Mini para servicios de voz de bajo costo

  • GPT-Realtime-Mini es una versión de bajo costo y alta velocidad del modelo de conversación en tiempo real, compatible con entrada de texto, imagen y audio y capaz de generar salida de texto y audio
  • Permite respuestas de voz y texto en tiempo real mediante conexiones WebRTC, WebSocket y SIP, y puede operar a un costo más de 6 veces menor que gpt-realtime
  • Ventana de contexto de 32,000 tokens, salida máxima de 4,096 tokens, Knowledge Cutoff del 1 de octubre de 2023
  • Precios (Pricing): por 1 millón de tokens
    • Tokens de texto
      • Entrada (Input): $0.60
      • Entrada en caché (Cached input): $0.06
      • Salida (Output): $2.40
      • Comparación con modelos existentes
        • Entrada: gpt-realtime: $4, GPT-5: $1.25, gpt-realtime-mini: $0.60 (el más barato)
        • Salida: gpt-realtime: $16, GPT-5: $10, gpt-realtime-mini: $2.4 (el más barato)
    • Tokens de audio
      • Entrada (Input): $10
      • Entrada en caché (Cached input): $0.3
      • Salida: $20
    • Tokens de imagen
      • Entrada: $0.8
      • Entrada en caché: $0.08

Modelo GPT Image 1 Mini

  • GPT-Image-1-Mini es una versión de bajo costo de GPT Image 1, un modelo multimodal que recibe texto e imágenes como entrada y genera salida de imagen
  • En lugar de priorizar la máxima calidad, se enfoca en eficiencia y bajo costo, por lo que resulta adecuado para generación masiva de imágenes o prototipado visual
  • Admite entrada de texto e imagen, y la salida es solo de imagen
  • Es más lento, pero ofrece alta eficiencia de costo frente al rendimiento
  • Precios (Pricing): por 1 millón de tokens
    • Tokens de texto
      • Entrada (Input): $2.00
      • Entrada en caché (Cached input): $0.20
      • Salida (Output): $8.00
      • Comparación con modelos existentes
        • Entrada: GPT Image 1: $5.00, GPT Image 1 Mini: $2.00 (aprox. 60% menos)
        • Salida: GPT Image 1: $20.00, GPT Image 1 Mini: $8.00 (aprox. 60% menos)
    • Tokens de imagen
      • Entrada (Input): $2.50
      • Entrada en caché (Cached input): $0.25
      • Salida (Output): $8.00
    • Generación de imágenes (por 1 imagen)
      • Calidad Low
        • 1024×1024: $0.005
        • 1024×1536: $0.006
        • 1536×1024: $0.006
      • Calidad Medium
        • 1024×1024: $0.011
        • 1024×1536: $0.015
        • 1536×1024: $0.015

1 comentarios

 
laeyoung 2025-10-08

Tanto en Hacker News como aquí, está más tranquilo de lo que esperaba. Supongo que es porque lo han ido anunciando y lanzando poco a poco.