- Componente de control por voz para React/navegador construido sobre Realtime API
- Permite implementar widgets que responden a instrucciones de voz, desde llenar formularios hasta ejecutar diversas acciones
- Ofrece el patrón de tool-constrained UI para restringir al asistente a realizar solo las acciones permitidas por la app
- Como un solo controlador gestiona en bloque la conexión de sesión, el procesamiento de audio, la ejecución de herramientas y el ensamblado de transcripciones, el desarrollador no necesita manejar directamente WebRTC ni el protocolo Realtime
- Al integrarlo en una app existente, la app mantiene la única fuente de verdad (source of truth) y la capa de voz solo invoca handlers limitados de la aplicación
- No es un framework de orquestación de propósito general, sino un paquete opinionated especializado en flujos de UI del navegador; si se necesita un runtime no-React o orquestación de agentes, se recomienda usar Raw Realtime u
openai-agents-js
- Para integrarlo en una app existente, ofrece una guía de 9 pasos: proxy del endpoint
/session → creación del wrapper del voice adapter → registro de herramientas → hoisting del controlador → montaje del widget
- El controlador usa
server_vad por defecto y, en sesiones solo de herramientas, se configura con interruptResponse: false para evitar que una nueva voz cancele una llamada de herramienta en curso
- En la app de demo se pueden ver varios escenarios de integración, como cambio de tema, formularios de múltiples pasos, flujo de ajedrez con estado compartido y experimentos con wake word
- Licencia Apache-2.0
1 comentarios
Pueden ver el video de uso en https://x.com/OpenAIDevs/status/2048871260512473385
Parece que funciona bastante rápido y bien. Aunque, como el costo de la API es una carga, su uso probablemente será limitado..
Si algo así se pudiera implementar en un modelo local, sería bastante útil.