9 puntos por xguru 2024-03-29 | 1 comentarios | Compartir por WhatsApp
  • Editor de documentos basado en voz que combina reconocimiento de voz y comandos en lenguaje natural
  • Si el usuario dice algo como "ponlo en forma de lista" o "agrega una cita en línea en la página 86 de este libro", ejecuta esa instrucción
  • El software de reconocimiento de voz todavía ofrece una experiencia incómoda y frágil
    • Los programas compiten por precisión, pero no abordan la naturaleza frágil del texto generado
    • Hay que aprender comandos especiales y sigue siendo insuficiente como sustituto del teclado
  • Cómo lo resuelve Aqua Voice
    • Aqua puede transcribir exactamente lo que dice el usuario, ejecutar comandos o pulir lo dicho para convertirlo en el texto que realmente quería escribir
    • Si la persona tartamudea o repite una frase varias veces, Aqua selecciona solo la versión final y la convierte en texto
  • La visión y la tecnología de Aqua Voice
    • Su objetivo es ofrecer una experiencia de reconocimiento de voz más natural y una experiencia de escritura con IA más colaborativa
    • Ofrece un servicio de streaming conectado continuamente a los modelos en tiempo real
    • Seis modelos colaboran para transcribir, interpretar y reescribir el documento según la intención
    • Usa transcripción MoE (Mixture of Experts) para mejorar la precisión en tiempo real

1 comentarios

 
xguru 2024-03-29

Opiniones en Hacker News

  • ¡Genial! Algunos comentarios:
    • El término "1000 tokens" no significa nada para usuarios no técnicos, y para mí tampoco significa casi nada. Solo dime cuántas palabras puedo decir.
    • Esa tabla de tasa de error en LaTeX con fuente serif también es demasiado aburrida. La gente quiere algo más llamativo, como "hasta 7 veces menos errores que Dictado de macOS". No una tabla comparativa.
    • "0.05 de tasa de error de palabras" también debería desaparecer. Hay que explicar qué significa y usar porcentajes.
    • "¿Olvidaste nombres, palabras, hechos o números? Pídele a Aqua que los complete". Me gustaría poder desactivar esa función, o al menos que hubiera una indicación clara cuando se inserta en el documento algo que yo no dije. Cuando dicto, normalmente quiero que en la página estén solo las palabras que dije.
  • Como ya dijeron otros, buen trabajo.
    • Esto parece especialmente bueno para el teléfono o el reloj. Se siente como un verdadero cambio de juego para poder tomar notas donde la experiencia con teclado no es tan buena.
    • ¿Lo han probado para escribir código? Esto podría ser sorprendentemente bueno como plugin para IDE/editor de texto.
    • Qué bueno ver que no hicieron alguna locura lamentable con IA. Muchas de las aplicaciones que vemos son horribles. Lo que construyeron es excelente y está lejos de esa experiencia maldita de fábrica de chocolate.
  • Tuve una lesión relacionada con RSI en el 94/95 y desde entonces uso reconocimiento de voz. Quiero una solución que me permita salir de Windows. Quiero una solución con la que pueda dictar fácilmente en Firefox, Thunderbird y VS Code. Lo más importante es la función de edición/manipulación de texto que Nuance llamaba "Select-and-Say". Poder hacer ediciones menores, reemplazar una oración con un nuevo dictado, etc., hace que usar la voz sea mucho más fácil que simplemente capturar dictado, como la mayoría de las apps tipo whisper. Si esto puede hacerlo, seré cliente de por vida.
    • Lo siguiente más importante es la capacidad de escribir rutinas de acción para gramática. Mi preferencia es Python, porque es el objetivo más fácil al pedirle a chatGPT que escriba código. Pero probablemente podría aprender otros lenguajes también (excepto JavaScript, lo odio). Remito al paquete "natPython" de Joel Gould. Aquí están la presentación original y lo que la gente construyó con eso.
    • Hay lecciones del pasado. En las primeras etapas de DragonDictate/NaturallySpeaking, cuando Baker dirigía Dragon Systems, enviaban regularmente a empleados a las reuniones locales de grupos de usuarios de reconocimiento de voz para hablar con nosotros sobre qué funcionaba y qué fallaba. Sabían que vernos a nosotros, los Crips, les daría más información sobre cómo construir un buen entorno de reconocimiento de voz que cualquier otra comunidad de usuarios. Nosotros encontrábamos los casos límite antes que nadie. Hicieron algunas cosas bien. Por ejemplo, apoyaron algunas reuniones de grupos de usuarios de reconocimiento de voz con espacio y tiempo del personal.
    • Parece que Nuance olvidó esa lección.
    • En fin, hoy se suponía que iba a trabajar, pero su presentación me voló eso de la cabeza. :-)
    • [Agregado después de usarlo] De verdad es impresionante. Está claro que necesito dedicarle más tiempo. Me doy cuenta de que mi experiencia con Naturally Speaking limitó mi perspectiva, y ustedes tienen una visión mucho más amplia de lo que una interfaz de usuario puede ser.
  • Yo quería algo así para entrada de datos. A menudo estoy midiendo cosas con las manos ocupadas y necesito tomar notas. ¿Puede esto generar/formatear datos tabulares?
  • Esto es realmente increíble. Esperaba que alguien hiciera esto:
    • Con gusto pagaría $10 al mes por esto. Pero lo que realmente quiero es una de estas dos cosas:
      • Un plugin de Raycast o una app de escritorio para que esto pueda interactuar con cualquier campo de texto editable en mi entorno
      • Una API a la que pueda pasarle texto/contexto existente + el stream de audio, y recibir de vuelta actualizaciones completas del documento en tiempo real. Entonces la comunidad podría construir plugins para Obsidian/VSCode/navegador para una enorme cantidad de contextos de entrada de texto
    • De todos modos hoy por la tarde voy a pagar esos $10, ¡felicidades!
  • El software de dictado es muy importante en la industria médica. Todos los médicos lo usan, y algo como su solución podría hacer su trabajo mucho más eficiente. ¿Han explorado este segmento de mercado?
  • ¡Esto es asombroso! Es muy satisfactorio de usar, y la combinación de transcripción + intención parece tener un potencial enorme.
    Me gustaría usar esto para dictar cartas para pacientes y cosas así. ¿Todavía falta mucho para tener un modelo local / cumplimiento de HIPAA?
  • ¡Felicidades por el lanzamiento!
    Como una persona neurodivergente que trabaja muchísimo mejor con texto que con voz, me encanta absolutamente esta idea. Mi único comentario es... me gustaría usar esto con más control. Ya ejecuto LLM localmente (por ejemplo, LM Studio), y también podría ejecutar algo como whisper. Entiendo que hacerlo open source (o permitir acceso al código fuente) puede ir en contra de un intento de comercialización. Pero podría haber algunas opciones, como Red Hat, donde se cobre por uso empresarial pero se permita uso local gratuito para uso personal.
    Por un lado, tienen una ventaja de primer jugador bastante sólida en un área donde mucha gente puede beneficiarse y usarlo, pero alguien podría ofrecer competencia simplemente juntando varias capas de salidas de múltiples LLM (proyectos que a menudo son open source, aunque a veces menos "pulidos"). Si ofrecen una buena propuesta, podrían tener una gran oportunidad de éxito. ¡Mucha suerte!
  • Esto está genial, probablemente me suscriba; solo tengo que recortar algunas de mis otras suscripciones. Últimamente hay demasiados productos de IA tentadores.
  • No lo dicen explícitamente, pero me gustaría saber qué datos van a la nube; asumo que grabaciones de voz completas. ¿O el STT se hace en el dispositivo? Además, ¿cuál es su política de privacidad/retención para esos datos? ¡Excelente demo y gran producto!