5 puntos por xguru 20 일 전 | 1 comentarios | Compartir por WhatsApp
  • Componente de control por voz para React/navegador construido sobre Realtime API
  • Permite implementar widgets que responden a instrucciones de voz, desde llenar formularios hasta ejecutar diversas acciones
  • Ofrece el patrón de tool-constrained UI para restringir al asistente a realizar solo las acciones permitidas por la app
  • Como un solo controlador gestiona en bloque la conexión de sesión, el procesamiento de audio, la ejecución de herramientas y el ensamblado de transcripciones, el desarrollador no necesita manejar directamente WebRTC ni el protocolo Realtime
  • Al integrarlo en una app existente, la app mantiene la única fuente de verdad (source of truth) y la capa de voz solo invoca handlers limitados de la aplicación
  • No es un framework de orquestación de propósito general, sino un paquete opinionated especializado en flujos de UI del navegador; si se necesita un runtime no-React o orquestación de agentes, se recomienda usar Raw Realtime u openai-agents-js
  • Para integrarlo en una app existente, ofrece una guía de 9 pasos: proxy del endpoint /session → creación del wrapper del voice adapter → registro de herramientas → hoisting del controlador → montaje del widget
  • El controlador usa server_vad por defecto y, en sesiones solo de herramientas, se configura con interruptResponse: false para evitar que una nueva voz cancele una llamada de herramienta en curso
  • En la app de demo se pueden ver varios escenarios de integración, como cambio de tema, formularios de múltiples pasos, flujo de ajedrez con estado compartido y experimentos con wake word
  • Licencia Apache-2.0

1 comentarios

 
xguru 20 일 전

Pueden ver el video de uso en https://x.com/OpenAIDevs/status/2048871260512473385
Parece que funciona bastante rápido y bien. Aunque, como el costo de la API es una carga, su uso probablemente será limitado..
Si algo así se pudiera implementar en un modelo local, sería bastante útil.