Nueva App dentro de ChatGPT y Apps SDK
- Se anunció una función para usar apps conversacionales dentro de ChatGPT
- Las nuevas apps están diseñadas para funcionar de forma natural dentro del flujo de la conversación, por lo que se sugieren automáticamente cuando el usuario las necesita
- Ejemplo: “Spotify, créame una playlist para la fiesta de este fin de semana” → la app se ejecuta automáticamente y ofrece resultados basados en el contexto
- Durante una conversación sobre bienes raíces, se puede sugerir la app de Zillow para mostrar de inmediato un mapa de propiedades según el presupuesto
- Convertir en diapositivas un esquema creado durante la conversación con Canva
- Tomar un curso de Coursera mientras se le pide a ChatGPT una explicación complementaria
- Las apps combinan comandos en lenguaje natural con una interfaz visual, ofreciendo una experiencia de uso más intuitiva que las apps web tradicionales
- Booking.com, Canva, Coursera, Figma, Expedia, Spotify y Zillow son las apps asociadas del primer lanzamiento
- Se planea agregar 11 apps más antes de fin de año: DoorDash, Khan Academy, Instacart, Peloton, OpenTable, Target, Uber,...
- El proceso de envío y revisión de apps comenzará a finales de este año, y también se incorporará gradualmente a las versiones ChatGPT Business, Enterprise y Edu
- Se creó un nuevo directorio de apps para que los usuarios puedan explorar y buscar apps, y las que destaquen por su diseño y funcionalidad tendrán recomendaciones dentro de la conversación y mayor visibilidad
-
Apps SDK
- Los desarrolladores pueden crear y probar sus propias apps con la versión preview de Apps SDK
- El SDK está basado en una estructura que extiende Model Context Protocol (MCP) y permite definir tanto la lógica como la interfaz de la app
- El SDK se publica como open source, por lo que puede ejecutarse con el mismo estándar también en plataformas fuera de ChatGPT
- Los desarrolladores pueden integrarlo directamente con su backend existente y admitir inicio de sesión y acceso a funciones de pago
- Antes de fin de año, ChatGPT incorporará un modelo de monetización para apps y una función de pago inmediato basada en Agentic Commerce Protocol
- Con esto, ChatGPT evolucionará más allá de un simple asistente conversacional hacia una plataforma integrada que interactúa con un ecosistema de apps
Presentación de AgentKit: un conjunto completo de herramientas para desarrollar, desplegar y optimizar agentes
- AgentKit es la herramienta sucesora de Responses API y Agents SDK, una plataforma integrada que simplifica el proceso de construcción de agentes y mejora su confiabilidad
- Antes era necesario gestionar por separado conectores, pipelines de evaluación, ajuste de prompts y construcción del frontend, pero ahora todo eso puede administrarse de forma unificada en un solo entorno
-
Agent Builder: herramienta de diseño visual de workflows
- Agent Builder ofrece un entorno con un canvas visual tipo drag and drop para estructurar y versionar la lógica del agente
- Está optimizado para iteración rápida, con ejecución de vista previa, configuración de evaluaciones inline y ajustes de guardrails personalizados
- Ramp afirmó que con esta herramienta completó en unas cuantas horas una orquestación compleja que antes tomaba meses, y redujo su ciclo de desarrollo en 70%
- La japonesa LY Corporation también construyó su primer workflow multiagente en 2 horas
-
Guardrails: protección segura para agentes
- Guardrails es una capa de seguridad open source que ofrece funciones de enmascaramiento de PII, detección de jailbreaks y bloqueo de respuestas anómalas
- Puede usarse de manera independiente o integrado en Agent Builder mediante las bibliotecas Guardrails para Python y JavaScript
-
Connector Registry: gestión unificada de integración de datos
- Connector Registry es un panel de administración unificado que centraliza la gestión de conexiones de datos entre múltiples workspaces y organizaciones
- Incluye conectores nativos como Dropbox, Google Drive, SharePoint y Microsoft Teams, además de compatibilidad con MCP de terceros
- Los administradores pueden gestionar de forma unificada dominios, SSO y organizaciones de API mediante Global Admin Console, requisito indispensable para activar Connector Registry
-
ChatKit: toolkit con UI conversacional integrada
- ChatKit es un toolkit para integrar fácilmente una UI de chat para agentes dentro de un producto
- Admite automáticamente respuestas en streaming, gestión de hilos de conversación y visualización del proceso de razonamiento del modelo
- Puede incorporarse directamente en la web o en apps, y permite personalización del tema para adaptarlo al diseño de la marca
- Ya se está usando en distintos escenarios como asistentes de conocimiento, guías de onboarding y apoyo a investigación, incluido el agente de soporte al cliente de HubSpot
-
Evals: mejoras en la medición de desempeño
- Para construir agentes más confiables, se agregan estas cuatro nuevas funciones a Evals
- Datasets: permite construir y ampliar rápidamente conjuntos de evaluación con calificadores automáticos y anotación humana
- Trace grading: evalúa la ejecución completa del workflow para detectar debilidades automáticamente
- Automated prompt optimization: mejora automática de prompts basada en resultados de evaluación
- Third-party model support: compatibilidad para evaluar también modelos externos
-
Reinforcement Fine-Tuning mejorado
- RFT permite a los desarrolladores ajustar los modelos de razonamiento de OpenAI para objetivos específicos
- Ya está disponible de forma general en el modelo o4-mini, y el RFT para GPT-5 está en beta privada, con decenas de empresas probándolo
- Nuevas funciones beta
- Custom tool calls: entrena al modelo para invocar la herramienta adecuada en el momento correcto
- Custom graders: permite configurar criterios de evaluación personalizados para casos de uso específicos
- ChatKit y Evals están disponibles de forma general para todos los desarrolladores desde hoy. Agent Builder y Connector Registry se ofrecerán gradualmente en beta y están incluidos dentro del esquema de precios estándar de los modelos API
- Próximamente también se agregarán Workflows API y opciones de despliegue de agentes dentro de ChatGPT
Lanzamiento oficial de Codex: expansión del agente de código integrado para equipos de desarrollo
- OpenAI anunció el lanzamiento oficial de Codex, su plataforma de agente de código basada en la nube, y añadió tres funciones clave: integración con Slack, Codex SDK y herramientas de administración
- Codex funciona de forma integrada en entornos IDE, CLI y nube con base en el modelo GPT-5-Codex
- Tras su lanzamiento, su uso diario aumentó 10 veces frente a agosto, procesando 40 billones de tokens en 3 semanas, lo que lo posiciona como uno de los modelos de crecimiento más rápido
- Dentro de OpenAI, más del 70% de los ingenieros de toda la empresa usan Codex, lo que elevó en 70% el volumen semanal de PR fusionados, y Codex realiza automáticamente la mayoría de las revisiones de código
-
Integración con Slack
- Si se etiqueta a
@Codex en un canal del equipo, Codex recopila automáticamente el contexto de la conversación y responde eligiendo el entorno adecuado
- Los resultados se enlazan mediante links de Codex Cloud, lo que permite fusionar cambios, iterar correcciones y descargar el trabajo en local
- La integración con Slack permite realizar de forma natural revisiones de código, correcciones automáticas y solicitudes de ejecución de builds dentro de un entorno de desarrollo colaborativo
-
Codex SDK
- Codex SDK es un kit de desarrollo que permite reutilizar en aplicaciones externas la implementación open source del agente de Codex CLI
- El SDK estará disponible primero para TypeScript, con soporte para otros lenguajes más adelante
- Funciones principales
- Parsear respuestas del agente con salida estructurada
- Gestión de contexto integrada para reanudar sesiones
- Soporte para automatizar pipelines de CI/CD mediante integración con GitHub Action
- En entornos de shell puede ejecutarse directamente con el comando
codex exec
- Instacart integró el SDK con su plataforma Olive para construir un entorno de desarrollo automatizado end-to-end, y confirmó mejoras en la eliminación de deuda técnica y en la calidad del código
-
Fortalecimiento de funciones de administración
- Las funciones de control y eliminación de entornos permiten gestionar datos sensibles y limpiar entornos innecesarios
- Se ofrece un dashboard para analizar el uso de Codex y la calidad de las revisiones de código en CLI, IDE y web
- Los administradores pueden controlar centralmente las políticas y configuraciones de uso local de Codex, lo que lo hace adecuado para operar en organizaciones de gran escala
- Cisco redujo con Codex hasta en 50% el tiempo de revisión de PR complejos, ayudando a que los ingenieros se enfoquen en tareas más estratégicas
- La integración con Slack y Codex SDK están disponibles de inmediato en los planes ChatGPT Plus, Pro, Business, Edu y Enterprise
- A partir del 20 de octubre, la carga de trabajo de Codex Cloud se incluirá en el cálculo de uso
- Plan Plus: aproximadamente 30~150 mensajes locales o 5~40 trabajos en la nube por cada 5 horas
- Plan Pro: aproximadamente 300~1,500 mensajes locales o 50~400 trabajos en la nube por cada 5 horas
- Si se supera el límite, el uso de Codex se suspenderá temporalmente, y podrá volver a utilizarse una vez que se reinicie el consumo
- Code Review no se incluye temporalmente en el uso
- Solo se contabiliza como uso de Code Review cuando se usa la etiqueta
@codex review en GitHub o se activa la función de revisión automática
Lanzamiento de la API de generación de video con Sora
- Sora es el modelo de medios generativos de próxima generación de OpenAI, capaz de crear videos realistas y dinámicos con audio incluido
- Fue desarrollado con base en investigación de multi-modal diffusion, aprendiendo percepción del espacio 3D, movimiento de cámara y consistencia en el movimiento físico
- Los desarrolladores pueden usarlo para generar contenido automáticamente en formato texto→video o imagen→video
- La nueva Video API está compuesta por estos cinco endpoints principales
- Create video: crea un nuevo trabajo de renderizado a partir de un prompt de texto o de un video existente
- Get video status: consulta el estado de avance del renderizado
- Download video: descarga el video MP4 completado
- List videos: administra la lista de videos generados y admite paginación
- Delete videos: elimina videos específicos del almacenamiento
- La API permite automatizar por programación tareas de generación, gestión, ampliación y remix de video
-
Tipos de modelo
-
Sora 2: para iteración y experimentación rápida
- Es un modelo centrado en velocidad y flexibilidad, adecuado para pruebas de concepto o creación de rough cuts
- Permite obtener resultados en poco tiempo, por lo que puede utilizarse para contenido de redes sociales o videos prototipo
- Se enfoca más en explorar ideas y verificar dirección visual que en lograr calidad perfecta
-
Sora 2 Pro: para producción de alta calidad
- Modelo diseñado con el objetivo de lograr una calidad de nivel cinematográfico
- La velocidad de renderizado es más lenta y el costo más alto, pero mejora notablemente la estabilidad y el detalle del video
- Es adecuado para videos de marketing en alta resolución, assets de marca y escenas con estilo cinematográfico
GPT-5 Pro disponible vía API
- GPT-5 Pro es el modelo de razonamiento de más alto nivel de OpenAI, y utiliza mayor capacidad de cómputo para generar respuestas más sofisticadas y precisas
- Es más lento que GPT-5 normal, pero ofrece mejor resolución de problemas complejos y una calidad más consistente
- Es un modelo exclusivo de Responses API, compatible con solicitudes conversacionales de múltiples turnos y funciones avanzadas de API, y solo admite el modo
reasoning.effort: high
- No admite Code Interpreter ni streaming en tiempo real
- Las solicitudes complejas pueden requerir varios minutos de procesamiento, y para ejecuciones prolongadas se recomienda usar Background Mode
- Ventana de contexto de 400,000 tokens, salida máxima de 272,000 tokens, Knowledge Cutoff del 30 de septiembre de 2024
- Precios (Pricing): por 1 millón de tokens
- Entrada (Input): $15.00 (incluye entrada de imagen)
- Salida (Output): $120.00
Modelo GPT Realtime Mini para servicios de voz de bajo costo
- GPT-Realtime-Mini es una versión de bajo costo y alta velocidad del modelo de conversación en tiempo real, compatible con entrada de texto, imagen y audio y capaz de generar salida de texto y audio
- Permite respuestas de voz y texto en tiempo real mediante conexiones WebRTC, WebSocket y SIP, y puede operar a un costo más de 6 veces menor que gpt-realtime
- Ventana de contexto de 32,000 tokens, salida máxima de 4,096 tokens, Knowledge Cutoff del 1 de octubre de 2023
- Precios (Pricing): por 1 millón de tokens
- Tokens de texto
- Entrada (Input): $0.60
- Entrada en caché (Cached input): $0.06
- Salida (Output): $2.40
- Comparación con modelos existentes
- Entrada: gpt-realtime: $4, GPT-5: $1.25, gpt-realtime-mini: $0.60 (el más barato)
- Salida: gpt-realtime: $16, GPT-5: $10, gpt-realtime-mini: $2.4 (el más barato)
- Tokens de audio
- Entrada (Input): $10
- Entrada en caché (Cached input): $0.3
- Salida: $20
- Tokens de imagen
- Entrada: $0.8
- Entrada en caché: $0.08
Modelo GPT Image 1 Mini
- GPT-Image-1-Mini es una versión de bajo costo de GPT Image 1, un modelo multimodal que recibe texto e imágenes como entrada y genera salida de imagen
- En lugar de priorizar la máxima calidad, se enfoca en eficiencia y bajo costo, por lo que resulta adecuado para generación masiva de imágenes o prototipado visual
- Admite entrada de texto e imagen, y la salida es solo de imagen
- Es más lento, pero ofrece alta eficiencia de costo frente al rendimiento
- Precios (Pricing): por 1 millón de tokens
- Tokens de texto
- Entrada (Input): $2.00
- Entrada en caché (Cached input): $0.20
- Salida (Output): $8.00
- Comparación con modelos existentes
- Entrada: GPT Image 1: $5.00, GPT Image 1 Mini: $2.00 (aprox. 60% menos)
- Salida: GPT Image 1: $20.00, GPT Image 1 Mini: $8.00 (aprox. 60% menos)
- Tokens de imagen
- Entrada (Input): $2.50
- Entrada en caché (Cached input): $0.25
- Salida (Output): $8.00
- Generación de imágenes (por 1 imagen)
- Calidad Low
- 1024×1024: $0.005
- 1024×1536: $0.006
- 1536×1024: $0.006
- Calidad Medium
- 1024×1024: $0.011
- 1024×1536: $0.015
- 1536×1024: $0.015
1 comentarios
Tanto en Hacker News como aquí, está más tranquilo de lo que esperaba. Supongo que es porque lo han ido anunciando y lanzando poco a poco.