- Editor de documentos basado en voz que combina reconocimiento de voz y comandos en lenguaje natural
- Si el usuario dice algo como "ponlo en forma de lista" o "agrega una cita en línea en la página 86 de este libro", ejecuta esa instrucción
- El software de reconocimiento de voz todavía ofrece una experiencia incómoda y frágil
- Los programas compiten por precisión, pero no abordan la naturaleza frágil del texto generado
- Hay que aprender comandos especiales y sigue siendo insuficiente como sustituto del teclado
- Cómo lo resuelve Aqua Voice
- Aqua puede transcribir exactamente lo que dice el usuario, ejecutar comandos o pulir lo dicho para convertirlo en el texto que realmente quería escribir
- Si la persona tartamudea o repite una frase varias veces, Aqua selecciona solo la versión final y la convierte en texto
- La visión y la tecnología de Aqua Voice
- Su objetivo es ofrecer una experiencia de reconocimiento de voz más natural y una experiencia de escritura con IA más colaborativa
- Ofrece un servicio de streaming conectado continuamente a los modelos en tiempo real
- Seis modelos colaboran para transcribir, interpretar y reescribir el documento según la intención
- Usa transcripción MoE (Mixture of Experts) para mejorar la precisión en tiempo real
1 comentarios
Opiniones en Hacker News
Me gustaría usar esto para dictar cartas para pacientes y cosas así. ¿Todavía falta mucho para tener un modelo local / cumplimiento de HIPAA?
Como una persona neurodivergente que trabaja muchísimo mejor con texto que con voz, me encanta absolutamente esta idea. Mi único comentario es... me gustaría usar esto con más control. Ya ejecuto LLM localmente (por ejemplo, LM Studio), y también podría ejecutar algo como whisper. Entiendo que hacerlo open source (o permitir acceso al código fuente) puede ir en contra de un intento de comercialización. Pero podría haber algunas opciones, como Red Hat, donde se cobre por uso empresarial pero se permita uso local gratuito para uso personal.
Por un lado, tienen una ventaja de primer jugador bastante sólida en un área donde mucha gente puede beneficiarse y usarlo, pero alguien podría ofrecer competencia simplemente juntando varias capas de salidas de múltiples LLM (proyectos que a menudo son open source, aunque a veces menos "pulidos"). Si ofrecen una buena propuesta, podrían tener una gran oportunidad de éxito. ¡Mucha suerte!