Todo lo presentado en OpenAI DevDay 2025

(openai.com)

18 puntos por xguru 2025-10-07 | 1 comentarios | Compartir por WhatsApp

Nueva App dentro de ChatGPT y Apps SDK

Se anunció una función para usar apps conversacionales dentro de ChatGPT
Las nuevas apps están diseñadas para funcionar de forma natural dentro del flujo de la conversación, por lo que se sugieren automáticamente cuando el usuario las necesita
- Ejemplo: “Spotify, créame una playlist para la fiesta de este fin de semana” → la app se ejecuta automáticamente y ofrece resultados basados en el contexto
- Durante una conversación sobre bienes raíces, se puede sugerir la app de Zillow para mostrar de inmediato un mapa de propiedades según el presupuesto
- Convertir en diapositivas un esquema creado durante la conversación con Canva
- Tomar un curso de Coursera mientras se le pide a ChatGPT una explicación complementaria
Las apps combinan comandos en lenguaje natural con una interfaz visual, ofreciendo una experiencia de uso más intuitiva que las apps web tradicionales
Booking.com, Canva, Coursera, Figma, Expedia, Spotify y Zillow son las apps asociadas del primer lanzamiento
- Se planea agregar 11 apps más antes de fin de año: DoorDash, Khan Academy, Instacart, Peloton, OpenTable, Target, Uber,...
El proceso de envío y revisión de apps comenzará a finales de este año, y también se incorporará gradualmente a las versiones ChatGPT Business, Enterprise y Edu
Se creó un nuevo directorio de apps para que los usuarios puedan explorar y buscar apps, y las que destaquen por su diseño y funcionalidad tendrán recomendaciones dentro de la conversación y mayor visibilidad
Apps SDK
- Los desarrolladores pueden crear y probar sus propias apps con la versión preview de Apps SDK
- El SDK está basado en una estructura que extiende Model Context Protocol (MCP) y permite definir tanto la lógica como la interfaz de la app
- El SDK se publica como open source, por lo que puede ejecutarse con el mismo estándar también en plataformas fuera de ChatGPT
- Los desarrolladores pueden integrarlo directamente con su backend existente y admitir inicio de sesión y acceso a funciones de pago
Antes de fin de año, ChatGPT incorporará un modelo de monetización para apps y una función de pago inmediato basada en Agentic Commerce Protocol
Con esto, ChatGPT evolucionará más allá de un simple asistente conversacional hacia una plataforma integrada que interactúa con un ecosistema de apps

Presentación de AgentKit: un conjunto completo de herramientas para desarrollar, desplegar y optimizar agentes

AgentKit es la herramienta sucesora de Responses API y Agents SDK, una plataforma integrada que simplifica el proceso de construcción de agentes y mejora su confiabilidad
Antes era necesario gestionar por separado conectores, pipelines de evaluación, ajuste de prompts y construcción del frontend, pero ahora todo eso puede administrarse de forma unificada en un solo entorno
Agent Builder: herramienta de diseño visual de workflows
- Agent Builder ofrece un entorno con un canvas visual tipo drag and drop para estructurar y versionar la lógica del agente
- Está optimizado para iteración rápida, con ejecución de vista previa, configuración de evaluaciones inline y ajustes de guardrails personalizados
- Ramp afirmó que con esta herramienta completó en unas cuantas horas una orquestación compleja que antes tomaba meses, y redujo su ciclo de desarrollo en 70%
- La japonesa LY Corporation también construyó su primer workflow multiagente en 2 horas
- Guardrails: protección segura para agentes
  - Guardrails es una capa de seguridad open source que ofrece funciones de enmascaramiento de PII, detección de jailbreaks y bloqueo de respuestas anómalas
  - Puede usarse de manera independiente o integrado en Agent Builder mediante las bibliotecas Guardrails para Python y JavaScript
Connector Registry: gestión unificada de integración de datos
- Connector Registry es un panel de administración unificado que centraliza la gestión de conexiones de datos entre múltiples workspaces y organizaciones
- Incluye conectores nativos como Dropbox, Google Drive, SharePoint y Microsoft Teams, además de compatibilidad con MCP de terceros
- Los administradores pueden gestionar de forma unificada dominios, SSO y organizaciones de API mediante Global Admin Console, requisito indispensable para activar Connector Registry
ChatKit: toolkit con UI conversacional integrada
- ChatKit es un toolkit para integrar fácilmente una UI de chat para agentes dentro de un producto
- Admite automáticamente respuestas en streaming, gestión de hilos de conversación y visualización del proceso de razonamiento del modelo
- Puede incorporarse directamente en la web o en apps, y permite personalización del tema para adaptarlo al diseño de la marca
- Ya se está usando en distintos escenarios como asistentes de conocimiento, guías de onboarding y apoyo a investigación, incluido el agente de soporte al cliente de HubSpot
Evals: mejoras en la medición de desempeño
- Para construir agentes más confiables, se agregan estas cuatro nuevas funciones a Evals
  - Datasets: permite construir y ampliar rápidamente conjuntos de evaluación con calificadores automáticos y anotación humana
  - Trace grading: evalúa la ejecución completa del workflow para detectar debilidades automáticamente
  - Automated prompt optimization: mejora automática de prompts basada en resultados de evaluación
  - Third-party model support: compatibilidad para evaluar también modelos externos
Reinforcement Fine-Tuning mejorado
- RFT permite a los desarrolladores ajustar los modelos de razonamiento de OpenAI para objetivos específicos
- Ya está disponible de forma general en el modelo o4-mini, y el RFT para GPT-5 está en beta privada, con decenas de empresas probándolo
- Nuevas funciones beta
  - Custom tool calls: entrena al modelo para invocar la herramienta adecuada en el momento correcto
  - Custom graders: permite configurar criterios de evaluación personalizados para casos de uso específicos
ChatKit y Evals están disponibles de forma general para todos los desarrolladores desde hoy. Agent Builder y Connector Registry se ofrecerán gradualmente en beta y están incluidos dentro del esquema de precios estándar de los modelos API
- Próximamente también se agregarán Workflows API y opciones de despliegue de agentes dentro de ChatGPT

Lanzamiento oficial de Codex: expansión del agente de código integrado para equipos de desarrollo

OpenAI anunció el lanzamiento oficial de Codex, su plataforma de agente de código basada en la nube, y añadió tres funciones clave: integración con Slack, Codex SDK y herramientas de administración
Codex funciona de forma integrada en entornos IDE, CLI y nube con base en el modelo GPT-5-Codex
- Tras su lanzamiento, su uso diario aumentó 10 veces frente a agosto, procesando 40 billones de tokens en 3 semanas, lo que lo posiciona como uno de los modelos de crecimiento más rápido
Dentro de OpenAI, más del 70% de los ingenieros de toda la empresa usan Codex, lo que elevó en 70% el volumen semanal de PR fusionados, y Codex realiza automáticamente la mayoría de las revisiones de código
Integración con Slack
- Si se etiqueta a @Codex en un canal del equipo, Codex recopila automáticamente el contexto de la conversación y responde eligiendo el entorno adecuado
- Los resultados se enlazan mediante links de Codex Cloud, lo que permite fusionar cambios, iterar correcciones y descargar el trabajo en local
- La integración con Slack permite realizar de forma natural revisiones de código, correcciones automáticas y solicitudes de ejecución de builds dentro de un entorno de desarrollo colaborativo
Codex SDK
- Codex SDK es un kit de desarrollo que permite reutilizar en aplicaciones externas la implementación open source del agente de Codex CLI
- El SDK estará disponible primero para TypeScript, con soporte para otros lenguajes más adelante
- Funciones principales
  - Parsear respuestas del agente con salida estructurada
  - Gestión de contexto integrada para reanudar sesiones
  - Soporte para automatizar pipelines de CI/CD mediante integración con GitHub Action
  - En entornos de shell puede ejecutarse directamente con el comando codex exec
- Instacart integró el SDK con su plataforma Olive para construir un entorno de desarrollo automatizado end-to-end, y confirmó mejoras en la eliminación de deuda técnica y en la calidad del código
Fortalecimiento de funciones de administración
- Las funciones de control y eliminación de entornos permiten gestionar datos sensibles y limpiar entornos innecesarios
- Se ofrece un dashboard para analizar el uso de Codex y la calidad de las revisiones de código en CLI, IDE y web
- Los administradores pueden controlar centralmente las políticas y configuraciones de uso local de Codex, lo que lo hace adecuado para operar en organizaciones de gran escala
- Cisco redujo con Codex hasta en 50% el tiempo de revisión de PR complejos, ayudando a que los ingenieros se enfoquen en tareas más estratégicas
La integración con Slack y Codex SDK están disponibles de inmediato en los planes ChatGPT Plus, Pro, Business, Edu y Enterprise
A partir del 20 de octubre, la carga de trabajo de Codex Cloud se incluirá en el cálculo de uso
- Plan Plus: aproximadamente 30~150 mensajes locales o 5~40 trabajos en la nube por cada 5 horas
- Plan Pro: aproximadamente 300~1,500 mensajes locales o 50~400 trabajos en la nube por cada 5 horas
- Si se supera el límite, el uso de Codex se suspenderá temporalmente, y podrá volver a utilizarse una vez que se reinicie el consumo
- Code Review no se incluye temporalmente en el uso
  - Solo se contabiliza como uso de Code Review cuando se usa la etiqueta @codex review en GitHub o se activa la función de revisión automática

Lanzamiento de la API de generación de video con Sora

Sora es el modelo de medios generativos de próxima generación de OpenAI, capaz de crear videos realistas y dinámicos con audio incluido
Fue desarrollado con base en investigación de multi-modal diffusion, aprendiendo percepción del espacio 3D, movimiento de cámara y consistencia en el movimiento físico
Los desarrolladores pueden usarlo para generar contenido automáticamente en formato texto→video o imagen→video
La nueva Video API está compuesta por estos cinco endpoints principales
- Create video: crea un nuevo trabajo de renderizado a partir de un prompt de texto o de un video existente
- Get video status: consulta el estado de avance del renderizado
- Download video: descarga el video MP4 completado
- List videos: administra la lista de videos generados y admite paginación
- Delete videos: elimina videos específicos del almacenamiento
La API permite automatizar por programación tareas de generación, gestión, ampliación y remix de video
Tipos de modelo
- Sora 2: para iteración y experimentación rápida
  - Es un modelo centrado en velocidad y flexibilidad, adecuado para pruebas de concepto o creación de rough cuts
  - Permite obtener resultados en poco tiempo, por lo que puede utilizarse para contenido de redes sociales o videos prototipo
  - Se enfoca más en explorar ideas y verificar dirección visual que en lograr calidad perfecta
- Sora 2 Pro: para producción de alta calidad
  - Modelo diseñado con el objetivo de lograr una calidad de nivel cinematográfico
  - La velocidad de renderizado es más lenta y el costo más alto, pero mejora notablemente la estabilidad y el detalle del video
  - Es adecuado para videos de marketing en alta resolución, assets de marca y escenas con estilo cinematográfico

GPT-5 Pro disponible vía API

GPT-5 Pro es el modelo de razonamiento de más alto nivel de OpenAI, y utiliza mayor capacidad de cómputo para generar respuestas más sofisticadas y precisas
Es más lento que GPT-5 normal, pero ofrece mejor resolución de problemas complejos y una calidad más consistente
Es un modelo exclusivo de Responses API, compatible con solicitudes conversacionales de múltiples turnos y funciones avanzadas de API, y solo admite el modo reasoning.effort: high
No admite Code Interpreter ni streaming en tiempo real
Las solicitudes complejas pueden requerir varios minutos de procesamiento, y para ejecuciones prolongadas se recomienda usar Background Mode
Ventana de contexto de 400,000 tokens, salida máxima de 272,000 tokens, Knowledge Cutoff del 30 de septiembre de 2024
Precios (Pricing): por 1 millón de tokens
- Entrada (Input): $15.00 (incluye entrada de imagen)
- Salida (Output): $120.00

Modelo GPT Realtime Mini para servicios de voz de bajo costo

GPT-Realtime-Mini es una versión de bajo costo y alta velocidad del modelo de conversación en tiempo real, compatible con entrada de texto, imagen y audio y capaz de generar salida de texto y audio
Permite respuestas de voz y texto en tiempo real mediante conexiones WebRTC, WebSocket y SIP, y puede operar a un costo más de 6 veces menor que gpt-realtime
Ventana de contexto de 32,000 tokens, salida máxima de 4,096 tokens, Knowledge Cutoff del 1 de octubre de 2023
Precios (Pricing): por 1 millón de tokens
- Tokens de texto
  - Entrada (Input): $0.60
  - Entrada en caché (Cached input): $0.06
  - Salida (Output): $2.40
  - Comparación con modelos existentes
    - Entrada: gpt-realtime: $4, GPT-5: $1.25, gpt-realtime-mini: $0.60 (el más barato)
    - Salida: gpt-realtime: $16, GPT-5: $10, gpt-realtime-mini: $2.4 (el más barato)
- Tokens de audio
  - Entrada (Input): $10
  - Entrada en caché (Cached input): $0.3
  - Salida: $20
- Tokens de imagen
  - Entrada: $0.8
  - Entrada en caché: $0.08

Modelo GPT Image 1 Mini

GPT-Image-1-Mini es una versión de bajo costo de GPT Image 1, un modelo multimodal que recibe texto e imágenes como entrada y genera salida de imagen
En lugar de priorizar la máxima calidad, se enfoca en eficiencia y bajo costo, por lo que resulta adecuado para generación masiva de imágenes o prototipado visual
Admite entrada de texto e imagen, y la salida es solo de imagen
Es más lento, pero ofrece alta eficiencia de costo frente al rendimiento
Precios (Pricing): por 1 millón de tokens
- Tokens de texto
  - Entrada (Input): $2.00
  - Entrada en caché (Cached input): $0.20
  - Salida (Output): $8.00
  - Comparación con modelos existentes
    - Entrada: GPT Image 1: $5.00, GPT Image 1 Mini: $2.00 (aprox. 60% menos)
    - Salida: GPT Image 1: $20.00, GPT Image 1 Mini: $8.00 (aprox. 60% menos)
- Tokens de imagen
  - Entrada (Input): $2.50
  - Entrada en caché (Cached input): $0.25
  - Salida (Output): $8.00
- Generación de imágenes (por 1 imagen)
  - Calidad Low
    - 1024×1024: $0.005
    - 1024×1536: $0.006
    - 1536×1024: $0.006
  - Calidad Medium
    - 1024×1024: $0.011
    - 1024×1536: $0.015
    - 1536×1024: $0.015

1 comentarios

laeyoung 2025-10-08

Tanto en Hacker News como aquí, está más tranquilo de lo que esperaba. Supongo que es porque lo han ido anunciando y lanzando poco a poco.

Todo lo presentado en OpenAI DevDay 2025

Nueva App dentro de ChatGPT y Apps SDK

Apps SDK

Presentación de AgentKit: un conjunto completo de herramientas para desarrollar, desplegar y optimizar agentes

Agent Builder: herramienta de diseño visual de workflows

Guardrails: protección segura para agentes

Connector Registry: gestión unificada de integración de datos

ChatKit: toolkit con UI conversacional integrada

Evals: mejoras en la medición de desempeño

Reinforcement Fine-Tuning mejorado

Lanzamiento oficial de Codex: expansión del agente de código integrado para equipos de desarrollo

Integración con Slack

Codex SDK

Fortalecimiento de funciones de administración

Lanzamiento de la API de generación de video con Sora

Tipos de modelo

Sora 2: para iteración y experimentación rápida

Sora 2 Pro: para producción de alta calidad

GPT-5 Pro disponible vía API

Modelo GPT Realtime Mini para servicios de voz de bajo costo

Modelo GPT Image 1 Mini

Lecturas relacionadas

1 comentarios