Componente de React con control por voz basado en OpenAI Realtime API
(github.com/openai)- Componente de control por voz para React/navegador construido sobre Realtime API
- Permite implementar widgets que responden a instrucciones de voz, desde completar formularios hasta ejecutar diversas acciones
- Ofrece el patrón tool-constrained UI para restringir al asistente a solo ejecutar las acciones permitidas por la app
- Como un solo controlador gestiona de forma integral la conexión de la sesión, el procesamiento de audio, la ejecución de herramientas y el ensamblado de transcripciones, el desarrollador no necesita manejar WebRTC ni el protocolo Realtime directamente
- Al integrarlo en una app existente, la app mantiene la única fuente de verdad (source of truth) del estado, y la capa de voz solo invoca handlers limitados de la aplicación
- Es un paquete opinionated especializado en flujos de UI en el navegador, no un framework de orquestación genérico; si se necesita un runtime no React o una orquestación de agentes, se recomienda usar Raw Realtime o
openai-agents-js - Para integrarlo en una app existente, ofrece una guía de 9 pasos: proxy del endpoint
/session→ creación del wrapper del voice adapter → registro de herramientas → hoisting del controlador → montaje del widget - El controlador usa
server_vadde forma predeterminada y, en sesiones solo de herramientas, configurainterruptResponse: falsepara evitar que una nueva entrada de voz cancele una llamada de herramienta en curso - En la app de demostración se pueden ver diversos escenarios de integración, como cambio de tema, formularios multistep, flujo de ajedrez con estado compartido y experimentos con wake word
- Licencia Apache-2.0
Aún no hay comentarios.