Smart-turn - modelo open source de detección de turnos de audio

(github.com/pipecat-ai)

8 puntos por GN⁺ 2025-03-10 | 1 comentarios | Compartir por WhatsApp

La detección de turnos es una de las funciones más importantes en el stack de IA de voz; es la tecnología que determina el momento en que un agente de voz debe responder cuando una persona está hablando
La mayoría de los agentes de voz se basan en VAD (Voice Activity Detection) para dividir el audio en segmentos de voz y no voz, por lo que no reflejan el significado acústico ni lingüístico
Los humanos realizan la detección de turnos mediante señales complejas como la gramática, la entonación y la velocidad del habla
- Objetivo: construir un modelo más cercano a las expectativas humanas que los enfoques basados en VAD
Proyecto de desarrollo de un modelo de detección de turnos de audio open source, impulsado por la comunidad
- Licencia BSD de 2 cláusulas → cualquiera puede usarlo, hacer fork y contribuir
- El proyecto comenzó en el ecosistema de Pipecat
- Pipecat: framework open source e independiente de proveedores para IA de voz y multimodal
Objetivos del proyecto
- Objetivos de alto nivel
  - Fácil de usar para cualquiera
  - Fácil de desplegar en producción
  - Fácil de fine-tunear para adaptarlo a aplicaciones específicas
- Limitaciones actuales del modelo
  - Solo soporta inglés
  - Velocidad de inferencia relativamente lenta: aprox. 150 ms en GPU y aprox. 1500 ms en CPU
  - Los datos de entrenamiento se centran principalmente en palabras de relleno incompletas que aparecen al final de los segmentos
- Objetivos de mediano plazo
  - Soporte para varios idiomas
  - Tiempo de inferencia: menos de 50 ms en GPU y menos de 500 ms en CPU
  - Incluir datos de entrenamiento con una gama más amplia de matices del habla
  - Construir un pipeline completamente sintético de generación de datos
  - Soporte para conditioning basado en texto (p. ej., ingreso de tarjeta de crédito, número telefónico, dirección, etc.)
Arquitectura del modelo
- Basado en el backbone Wav2Vec2-BERT de Meta AI (número de parámetros: 580M)
  - Usa datos de audio para aprendizaje no supervisado de 143 idiomas y 4.5 millones de horas
- Estructura actual del modelo:
  - Wav2Vec2-BERT → clasificador de 2 capas (classification head)
  - Usa Hugging Face Wav2Vec2BertForSequenceClassification
- Arquitectura en experimentación:
  - Se está probando si un clasificador simple seguirá siendo efectivo incluso al ampliar el dataset
  - Se está evaluando la posibilidad de introducir una estructura más compleja

1 comentarios

GN⁺ 2025-03-10

Comentarios en Hacker News

He usado pipecat y me gustó. Pero me cambié a sherpa-onnx, que compila de forma nativa y puede ejecutarse en dispositivos edge
- Cuando uso la app de Google Translate, a menudo hago una pausa o bajo la velocidad mientras digo oraciones largas, así que evito el modo conversación
- Este problema requiere detección de turnos de baja latencia, detección de interrupciones de voz y un LLM de latencia muy baja y muy rápido
- Se necesita una buena función de recuperación para que el sistema pueda continuar la última oración sin descartar el audio anterior
- Para mejorar la latencia de i/o, se necesita una API de audio de baja latencia, búferes de audio muy cortos y usar categorías y modos de audio dedicados
- No estoy seguro de si se puede usar TTS en modo streaming
- Un push-to-talk bien diseñado podría ser una buena solución
Hoy hubo algunas actualizaciones interesantes
- Inferencia de 100 ms usando CoreML
- Un modelo LSTM entrenado con un subconjunto de los datos
Obtuve la mayoría de las respuestas en el README. Está bien escrito
Me pregunto si podrían compartir los recursos y la cantidad necesaria para hacer fine-tuning de Wav2Vec2-BERT
Me pregunto qué es la detección de turnos
Me alegra ver que esta tecnología siga avanzando
- Desde los peores sistemas de voz como Siri hasta el modo de voz de ChatGPT, las computadoras no hacen bien este trabajo
- Esto podría ser el mayor obstáculo para que los 'agentes' realicen tareas simples pero útiles
- Sigue habiendo muchas situaciones en las que la IA todavía tiene dificultades, y estos errores pueden destruir la eficiencia de una conversación o causar fallas funcionales graves
Como persona diagnosticada con autismo HF, me gustaría aplicar esta tecnología a un auricular
Después de revisar algunos modelos basados en turnos, la implementación es muy consistente. Tengo ganas de ver cómo evoluciona esta tecnología
Ojalá Vedal integrara esta tecnología en el modelo de Neuro-sama. Un caso de pasar de bot de osu a AI Vtuber
Me pregunto si admite varios hablantes
Haciendo fork

Smart-turn - modelo open source de detección de turnos de audio

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News