5 puntos por xguru 1 일 전 | Aún no hay comentarios. | Compartir por WhatsApp
  • Componente de control por voz para React/navegador construido sobre Realtime API
  • Permite implementar widgets que responden a instrucciones de voz, desde completar formularios hasta ejecutar diversas acciones
  • Ofrece el patrón tool-constrained UI para restringir al asistente a solo ejecutar las acciones permitidas por la app
  • Como un solo controlador gestiona de forma integral la conexión de la sesión, el procesamiento de audio, la ejecución de herramientas y el ensamblado de transcripciones, el desarrollador no necesita manejar WebRTC ni el protocolo Realtime directamente
  • Al integrarlo en una app existente, la app mantiene la única fuente de verdad (source of truth) del estado, y la capa de voz solo invoca handlers limitados de la aplicación
  • Es un paquete opinionated especializado en flujos de UI en el navegador, no un framework de orquestación genérico; si se necesita un runtime no React o una orquestación de agentes, se recomienda usar Raw Realtime o openai-agents-js
  • Para integrarlo en una app existente, ofrece una guía de 9 pasos: proxy del endpoint /session → creación del wrapper del voice adapter → registro de herramientas → hoisting del controlador → montaje del widget
  • El controlador usa server_vad de forma predeterminada y, en sesiones solo de herramientas, configura interruptResponse: false para evitar que una nueva entrada de voz cancele una llamada de herramienta en curso
  • En la app de demostración se pueden ver diversos escenarios de integración, como cambio de tema, formularios multistep, flujo de ajedrez con estado compartido y experimentos con wake word
  • Licencia Apache-2.0

Aún no hay comentarios.

Aún no hay comentarios.