Componente React de control por voz basado en OpenAI Realtime API

xguru · 2026-04-29T09:31:01+09:00

Componente de control por voz para React/navegador construido sobre Realtime API Permite implementar widgets que responden a instrucciones de voz, desde llenar formularios hasta ejecutar diversas acciones Ofrece el patrón de tool-constrained UI para restringir al asistente a realizar solo las acciones permitidas por la app Como un solo controlador gestiona en bloque la conexión de sesión, el procesamiento de audio, la ejecución de herramientas y el ensamblado de transcripciones, el desarrollador no necesita manejar directamente WebRTC ni el protocolo Realtime Al integrarlo en una app existente, la app mantiene la única fuente de verdad (source of truth) y la capa de voz solo invoca handlers limitados de la aplicación No es un framework de orquestación de propósito general, sino un paquete opinionated especializado en flujos de UI del navegador; si se necesita un runtime no-React o orquestación de agentes, se recomienda usar Raw Realtime u openai-agents-js Para integrarlo en una app existente, ofrece una guía de 9 pasos: proxy del endpoint /session → creación del wrapper del voice adapter → registro de herramientas → hoisting del controlador → montaje del widget El controlador usa server_vad por defecto y, en sesiones solo de herramientas, se configura con interruptResponse: false para evitar que una nueva voz cancele una llamada de herramienta en curso En la app de demo se pueden ver varios escenarios de integración, como cambio de tema, formularios de múltiples pasos, flujo de ajedrez con estado compartido y experimentos con wake word Licencia Apache-2.0

Componente de control por voz para React/navegador construido sobre Realtime API
Permite implementar widgets que responden a instrucciones de voz, desde llenar formularios hasta ejecutar diversas acciones
Ofrece el patrón de tool-constrained UI para restringir al asistente a realizar solo las acciones permitidas por la app
Como un solo controlador gestiona en bloque la conexión de sesión, el procesamiento de audio, la ejecución de herramientas y el ensamblado de transcripciones, el desarrollador no necesita manejar directamente WebRTC ni el protocolo Realtime
Al integrarlo en una app existente, la app mantiene la única fuente de verdad (source of truth) y la capa de voz solo invoca handlers limitados de la aplicación
No es un framework de orquestación de propósito general, sino un paquete opinionated especializado en flujos de UI del navegador; si se necesita un runtime no-React o orquestación de agentes, se recomienda usar Raw Realtime u openai-agents-js
Para integrarlo en una app existente, ofrece una guía de 9 pasos: proxy del endpoint /session → creación del wrapper del voice adapter → registro de herramientas → hoisting del controlador → montaje del widget
El controlador usa server_vad por defecto y, en sesiones solo de herramientas, se configura con interruptResponse: false para evitar que una nueva voz cancele una llamada de herramienta en curso
En la app de demo se pueden ver varios escenarios de integración, como cambio de tema, formularios de múltiples pasos, flujo de ajedrez con estado compartido y experimentos con wake word
Licencia Apache-2.0

Componente React de control por voz basado en OpenAI Realtime API

Lecturas relacionadas

1 comentarios