1 puntos por GN⁺ 2023-12-08 | 1 comentarios | Compartir por WhatsApp

Introducción al proyecto Mozilla Common Voice

  • Mozilla Common Voice es un proyecto que ayuda a las máquinas a aprender cómo hablan las personas reales.
  • Para hacer posible la tecnología de voz, los desarrolladores necesitan enormes cantidades de datos de voz.
  • Se considera que la mayor parte de esos datos son utilizados por grandes empresas y no son accesibles para la mayoría de las personas, lo que frena la innovación.

Estado del registro y la validación de datos de voz

  • Hasta ahora se han grabado 29,000 horas de voz, de las cuales 18,000 horas han sido validadas.

Soporte para diversos idiomas

  • El proyecto Common Voice admite diversos idiomas de todo el mundo, y los usuarios pueden contribuir en su propio idioma.

Apoyo para construir datasets públicos de alta calidad

  • Se puede contribuir sin crear un perfil, pero también es posible enriquecer los datos enviados proporcionando información demográfica anónima.
  • La información del perfil mejora la calidad de los datos de audio que se utilizan para entrenar la precisión del reconocimiento de voz.
  • Los usuarios pueden seguir su progreso y sus métricas en varios idiomas.
  • Se puede comparar el progreso con el de otros colaboradores de todo el mundo.
  • Se puede revisar el avance hacia metas personales y del proyecto.
  • Si se desea, también se puede optar por suscribirse a una lista de correo para recibir actualizaciones del proyecto e información nueva.

Opinión de GN⁺

Lo más importante de este artículo es que Mozilla lanzó el proyecto Common Voice para proporcionar los grandes volúmenes de datos de voz que necesitan los desarrolladores que quieren crear tecnología de reconocimiento de voz. Este proyecto muestra el esfuerzo de Mozilla por impulsar la innovación tecnológica y, al apoyar distintos idiomas de todo el mundo, ofrece a muchas personas la oportunidad de contribuir al avance tecnológico. Esto refleja la filosofía de Mozilla de buscar la democratización de la tecnología y será una iniciativa interesante y atractiva para muchas personas.

1 comentarios

 
GN⁺ 2023-12-08
Opiniones de Hacker News
    • El TTS de FF es un proyecto importante para quienes quieren un sistema de texto a voz fácil de usar. Está integrado en el navegador, así que se pueden escuchar varios ejemplos de TTS ejecutando código simple en la consola. Algunos navegadores incluso funcionan sin conexión, mientras que otros usan sistemas de TTS basados en la nube.
    • Common Voice Android es una app útil para quienes quieren contribuir al proyecto. Los usuarios pueden grabar su voz en los idiomas que hablan y validar las contribuciones de otros usuarios. Tiene un diseño más amigable que la versión del sitio web oficial.
    • Los datasets obtenidos por crowdsourcing podrían convertirse en la única forma de construir modelos fundacionales si los tribunales determinan que las acciones de empresas como OpenAI no califican como uso justo. No considero baja la probabilidad de que ocurra un escenario así.
    • Este dataset es mucho más pequeño que aquellos con los que se entrenaron los modelos de voz recientes, pero está pensado para aprendizaje supervisado más que para aprendizaje autosupervisado, y sigue siendo útil para el ajuste fino que mejora el rendimiento de un modelo en idiomas específicos.
    • Considerando los incidentes recientes relacionados con IA y tecnología deepfake, harían falta ciertas garantías antes de aceptar "donar mi voz" a un proyecto como este. No está claro si el proyecto es para reconocimiento de voz o para generación.
    • Me pregunto si Mozilla alguna vez canceló o transfirió a otra empresa el software relacionado de voz a texto. ¿O tal vez era otra cosa?
    • ¿Por qué la función de texto a voz en el modo lector de Firefox en Linux es tan mala? Es mucho peor que la voz sintética de Stephen Hawking.
    • Esperaba que OpenAI fuera realmente abierta, pero ahora se ha convertido en un títere de Microsoft que persigue objetivos de ganancias corporativas. Proyectos como este y HuggingFace da gusto verlos, y espero que HuggingFace no termine siendo adquirida por Microsoft como GitHub.
    • ¿Cuántos de los aquí presentes tienen una "voz de lectura" distinta de su voz normal al hablar? Si la mayor parte de los datos de entrenamiento suenan "como un guion", ¿se puede entrenar un modelo conversacional?
    • Se proporcionan enlaces a noticias relacionadas, que ofrecen información sobre el avance del proyecto Mozilla Common Voice y la expansión del dataset de voz.