Mozilla Common Voice, una plataforma comunitaria de datasets de voz

(commonvoice.mozilla.org)

1 puntos por GN⁺ 2023-12-08 | 1 comentarios | Compartir por WhatsApp

Mozilla Common Voice es una plataforma gratuita y de código abierto donde la comunidad crea y comparte directamente datasets de texto y voz para que la tecnología de voz pueda usarse en más idiomas
Las personas colaboradoras pueden participar en los datos de Scripted Speech, Spontaneous Speech y texto de idioma mediante lectura de oraciones, validación de lecturas, respuesta a preguntas, transcripción de voz y adición de texto
La plataforma da soporte a comunidades de más de 290 idiomas, y los datasets de voz públicos están disponibles en más de 130 idiomas
Los datasets pueden usarse para ASR, STT, TTS y otros usos de NLP, y las nuevas publicaciones pueden descargarse desde Mozilla Data Collective
Quienes se registran en Mozilla Data Collective pueden acceder a más de 500 datasets globales creados y utilizados por la comunidad, por lo que el centro de obtención y compartición de datos lingüísticos se ha desplazado hacia allí

Qué busca resolver Common Voice

Mozilla Common Voice es una plataforma de creación de datos impulsada por la comunidad
Cualquiera puede compartir, crear y curar datasets de texto y voz para preservar, revitalizar y expandir su idioma
El objetivo es que la IA no funcione solo para algunos idiomas, sino que las propias personas creen los datasets lingüísticos que necesitan
Common Voice es operado por comunidades de todo el mundo y sigue ampliándose a más de 290 idiomas

Formas de colaborar y uso de los datasets

Scripted Speech
- Las personas usuarias contribuyen con la voz de su idioma al dataset público participando en lectura de oraciones
- Otras personas usuarias pueden validar las lecturas en Validate Readings
Spontaneous Speech
- Las personas usuarias responden a prompts para crear datasets con un contexto natural y conversacional
- Puede aprovecharse de una forma adecuada para idiomas donde predomina la oralidad
- Se puede participar en la transcripción mediante Transcribe answers y funciones de revisión
Language Text
- Se pueden crear o compartir prompts, oraciones y textos de dominio público
- Puede usarse para traducción, modelos de lenguaje pequeños y otros fines
- Las nuevas publicaciones están disponibles en Mozilla Data Collective, y al registrarse se obtiene acceso a más de 500 datasets globales
- En Explore datasets se pueden consultar datasets públicos de voz en más de 130 idiomas usados en contextos de ASR, STT, TTS y otros de NLP
- Los socios se dividen entre sociedad civil e investigadores, empresas tecnológicas y organizaciones filantrópicas
- La sociedad civil y las personas investigadoras pueden crear, alojar y compartir gratuitamente datasets de alto impacto
- Las empresas tecnológicas pueden invertir en la creación de datasets abiertos para un ecosistema de IA multilingüe
- Las organizaciones filantrópicas pueden financiar la creación de datasets para la innovación y el desarrollo regional

1 comentarios

GN⁺ 2023-12-08

Opiniones en Hacker News

El TTS de Firefox es un proyecto importante para quienes necesitan un sistema de conversión de texto a voz fácil de usar.
Como está integrado en el navegador, se pueden ejecutar window.speechSynthesis y SpeechSynthesisUtterance en la consola para escuchar de inmediato varios ejemplos de voces.
Según el navegador, puede funcionar sin conexión o usar TTS basado en la nube.
- En macOS se puede hacer con say "enter text here"; para elegir otra voz, say -v Fred "enter text here", y la lista de voces se puede ver con say -v "?".
  Las comillas son necesarias para que ZSH no interprete ? como un glob.
  Aunque digo que el TTS de Firefox es importante, hasta este comentario ni siquiera sabía que existía, y este tipo de función debería ser más fácil de descubrir y tener una API más accesible.
- speechSynthesis parece estar soportado no solo en Firefox, sino en los principales navegadores en general: https://developer.mozilla.org/en-US/docs/Web/API/Window/spee...
- Hace unos días probé Common Voice y me gustaron los ejemplos de páginas comunitarias para quienes quieren ayudar con un idioma específico.
  Justo estaba pensando que Firefox se volvió muy rápido y que valía la pena volver a usarlo; si uno cree que es importante tener un navegador independiente que valore la privacidad, la seguridad y la independencia, incluso quienes cambian de navegador sin pensarlo demasiado deberían darle una oportunidad a Firefox.
  Me da satisfacción poder volver a usar algunas extensiones de Firefox que no funcionaban igual en navegadores basados en Chrome.
- Al depurar, probé hacer que los mensajes importantes que no debía perderme se enviaran a stderr y además se leyeran en voz alta ejecutando con PowerShell las voces TTS gratuitas de Windows, o invocándolas desde Chrome mediante WebSocket, y fue bastante divertido.
  Es bueno que haya más voces para elegir.
- Me pregunto si esto alguna vez se separó como una biblioteca independiente.
  El estado del TTS de código abierto no parece muy bueno, y los datos necesarios para una sola voz parecen más difíciles de reunir que los necesarios para entrenar un sistema de reconocimiento de voz como Whisper.
Common Voice Android también es recomendable: https://github.com/Sav22999/common-voice-android
Es una app cómoda para quienes quieren contribuir al proyecto, y permite grabar audio en los idiomas que uno habla o validar las contribuciones de otros usuarios.
Contribuí bastante hace unos dos años, y su diseño era mucho más cómodo de usar que el sitio web oficial.
También existe un canal oficial de Common Voice en Matrix: https://chat.mozilla.org/#/room/#common-voice:mozilla.org
Viendo las tecnologías recientes de IA y deepfakes, antes de “donar mi voz” a un lugar así necesitaría algún tipo de garantía.
Este proyecto parece ser para reconocimiento de voz, no para generación de voz, pero a primera vista no queda claro.
- No sé si “garantía” sea la palabra exacta, pero alrededor del aprendizaje automático y los modelos generativos parece haber una actitud bastante laxa respecto al respeto por la propiedad de las personas, así que me chocó la expresión “dona tu voz”.
  Mozilla probablemente sea la organización adecuada, pero su producto principal está en declive, y si la organización desaparece no se sabe qué pasará con esos datos.
  Las organizaciones en decadencia suelen terminar vendiéndose por partes, y estos datos podrían convertirse en propiedad intelectual de interés para muchas empresas con fines mucho menos nobles.
- Me da curiosidad qué tipo de garantías te gustaría ver.
Estos datasets de crowdsourcing, junto con los datasets creados por el proyecto OpenAssistant, podrían convertirse en casi la única forma de crear modelos fundacionales si los tribunales determinan que las prácticas de empresas como OpenAI no constituyen uso justo.
Tampoco me parece un escenario particularmente improbable.
Este dataset es varios órdenes de magnitud más pequeño que los datos con los que se entrenaron modelos de voz recientes como Whisper o Seamless, y está pensado para aprendizaje supervisado, no para aprendizaje autosupervisado con más abundancia de datos, pero aun así puede ser útil.
Puede servir para ajustar modelos existentes y lograr mejores puntajes en un idioma específico.
Creo recordar que Mozilla antes también tenía software de reconocimiento de voz relacionado, y que lo descontinuó o lo trasladó a otra empresa.
- ¿Te refieres a DeepSpeech? https://github.com/mozilla/DeepSpeech
- Esto es un dataset público de muestras de voz para entrenar modelos, así que, estrictamente hablando, no es software de reconocimiento de voz ni de TTS.
Impresionante.
Una de las cosas que esperaba de OpenAI era que realmente fuera una organización abierta.
Esperaba datasets abiertos, código abierto, modelos abiertos y evaluaciones abiertas, pero ahora se convirtió en una marioneta de Microsoft movida por objetivos de beneficio corporativo.
Proyectos como este y HuggingFace se ven muy bien, y espero que HuggingFace no sea adquirida por Microsoft como GitHub.
Entonces no entiendo por qué el text2speech del modo lectura de Firefox en Linux es tan malo.
El modo lectura en sí es excelente, pero la calidad de la voz es mucho peor que la conversión de texto a voz de Stephen Hawking.
Publicaciones relacionadas en HN:
Mozilla Common Voice Adds 16 New Languages and 4,600 New Hours of Speech - https://news.ycombinator.com/item?id=28073016 - agosto de 2021, 170 comentarios
Firefox Voice - https://news.ycombinator.com/item?id=24096082 - agosto de 2020, 154 comentarios
Firefox Voice: Browse the web with your voice - https://news.ycombinator.com/item?id=23902560 - julio de 2020, 2 comentarios
Mozilla Common Voice Dataset: More data, more languages - https://news.ycombinator.com/item?id=23695377 - junio de 2020, 41 comentarios
The Common Voice Project by Mozilla reached its first goal: 1k hours in englisch - https://news.ycombinator.com/item?id=23051756 - mayo de 2020, 1 comentario
Common Voice: A Massively-Multilingual Speech Corpus - https://news.ycombinator.com/item?id=21887693 - diciembre de 2019, 9 comentarios
Common Voice – Mozilla's initiative to help teach machines how real people speak - https://news.ycombinator.com/item?id=21268579 - octubre de 2019, 49 comentarios
Mozilla releases the largest to-date public domain transcribed voice dataset - https://news.ycombinator.com/item?id=19270646 - febrero de 2019, 61 comentarios
Mozilla Overhauls Speech-To-Text Contribution Interface - https://news.ycombinator.com/item?id=17436958 - julio de 2018, 42 comentarios
Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Data - https://news.ycombinator.com/item?id=15808124 - noviembre de 2017, 88 comentarios
Project Common Voice - https://news.ycombinator.com/item?id=14794654 - julio de 2017, 57 comentarios
Mozilla: Project Common Voice - https://news.ycombinator.com/item?id=14786881 - julio de 2017, 1 comentario
Me da curiosidad cuánta gente tiene una voz distinta al hablar normalmente y al leer en voz alta.
Si una parte considerable de los datos de entrenamiento son audio de “lectura de guiones”, ¿podrán entrenarse bien los modelos conversacionales?
- Cuando el equipo de Mozilla Common Voice pidió feedback antes de empezar, planteé ese problema y propuse otro enfoque para recopilar datos de voz conversacional, pero no fue adoptado.
  Está bastante extendida la creencia de que es mejor tener muchos datos, aunque sean deficientes, que pocos datos ajustados al problema que realmente se quiere resolver.

Mozilla Common Voice, una plataforma comunitaria de datasets de voz

Qué busca resolver Common Voice

Formas de colaborar y uso de los datasets

Scripted Speech

Spontaneous Speech

Language Text

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News