Whispering - app de transcripción de voz de código abierto

(github.com/epicenter-so)

21 puntos por GN⁺ 2025-08-19 | 2 comentarios | Compartir por WhatsApp

Whispering es una herramienta de transcripción de voz local-first que, tras presionar un atajo de teclado, realiza el proceso de voz → texto y lo pega de inmediato en el portapapeles
A diferencia de muchas herramientas existentes, que eran servicios cerrados y de pago, Whispering ofrece procesamiento de datos transparente y accesibilidad de código abierto
El usuario puede elegir entre opciones locales (Whisper C++, Speaches, etc.) o en la nube (Groq, OpenAI, ElevenLabs, etc.), y configurar las funciones de transformación con IA que desee
La app pesa 22 MB y ofrece un inicio rápido, además de incluir funciones avanzadas como atajos personalizados, modo de activación por voz y formateo automático de texto
Permite lograr al mismo tiempo propiedad de los datos y reducción de costos, por lo que es un proyecto relevante como alternativa a los SaaS cerrados de transcripción

Descripción general de Whispering

Whispering es una app de transcripción de voz gratuita y de código abierto que, al presionar un atajo e ingresar voz, la convierte en texto y la copia automáticamente
- Los datos personales se guardan localmente por defecto y no se envían al exterior
- Si se desea, se pueden conectar directamente APIs externas como OpenAI, Groq y ElevenLabs
Sus valores centrales son la transparencia y la garantía de propiedad de los datos

Funciones y características principales

Soporte para modo de activación por voz (Voice Activity Detection, VAD)
- Cuando el usuario habla, la grabación comienza automáticamente, y cuando se detiene, termina sola
Función de transformaciones basadas en IA (Transformations)
- Permite configurar distintos flujos de trabajo de IA para corrección gramatical, traducción, resumen, aplicación de formato y más
- Se puede elegir entre varios proveedores de LLM como OpenAI, Anthropic, Google Gemini y Groq
Soporte para atajos personalizados para adaptar la experiencia al entorno del usuario
Estructura de bajo costo: se usa la propia API key del usuario para pagar directamente al proveedor
- Ejemplo: con modelos de Groq, 0.02$/hora → alrededor de 0.20$ al mes (100 veces más barato que un SaaS tradicional)

Instalación y uso

Hay binarios disponibles para macOS, Windows y Linux
- macOS: versiones separadas para Apple Silicon e Intel
- Windows: opciones de instalación MSI/EXE
- Linux: soporte para AppImage, DEB y RPM
Si la instalación resulta incómoda, también hay una versión web de la app (aunque no admite atajos globales)

Cómo maneja los datos

Todas las grabaciones y resultados de transcripción se guardan en IndexedDB para gestión local
Si se elige un servicio externo de transcripción, solo se realizan llamadas directas mediante API key
- Sin servidores intermedios, sin recolección de datos
Los servicios de transformación también se envían únicamente al proveedor de LLM elegido por el usuario
- Los flujos de trabajo de transformación, prompts y valores de configuración se guardan localmente

Diferenciadores y ventajas

Las apps de transcripción existentes suelen pasar por servidores intermedios y cobrar 15 a 30 dólares al mes
Whispering tiene una arquitectura sin intermediarios, lo que permite conectarse directamente con el proveedor y reducir costos
Si se elige una opción local, permite un uso completamente offline, gratuito e ilimitado

Desarrollo y arquitectura

Está construida sobre Svelte 5 + Tauri, con soporte tanto para escritorio como para web
- Tamaño de unos 22 MB, inicio rápido y uso mínimo de recursos
La base de código usa una arquitectura de 3 capas dividida en capa de servicios, capa de consultas y capa de UI
- 97% de código compartido entre las versiones web y de escritorio
La extensión de navegador (React + shadcn/ui) está actualmente en pausa temporal mientras se estabiliza la app de escritorio

Contribuciones y comunidad

Cualquiera puede revisar el código fuente, contribuir funciones y agregar nuevos adaptadores de servicios de transcripción/IA
Guías de desarrollo: mantener patrones de TypeScript/Svelte y manejo de errores basado en la biblioteca WellCrafted
La retroalimentación de usuarios y la colaboración se canalizan a través de la comunidad de Discord y GitHub Issues
Basada en licencia MIT, se puede hacer fork, modificar y redistribuir libremente

Respuestas principales del FAQ

Uso offline: soporte totalmente offline con el modo local de Speaches
Costo real: con Groq, 0.2~3$ al mes; con OpenAI, 1.8~16.2$ al mes; local es gratis
Seguridad/privacidad: las grabaciones se guardan localmente, y cualquier envío externo se hace solo a la API del proveedor elegido directamente por el usuario
Plataformas compatibles: escritorio en macOS, Windows y Linux + navegador web

2 comentarios

wedding 2025-08-21

Para implementar reconocimiento de voz en una red cerrada, hice y estoy usando un servidor web liviano que hace STT con Whisper. Aunque lo explican como si todo funcionara offline, fuera de la función de transcripción, cosas como las transformaciones igual dependen de la nube, así que me pregunto qué sentido tienen realmente esas diferencias y ventajas.

GN⁺ 2025-08-19

Opiniones de Hacker News

Me pregunto si se puede usar el modelo Parakeet localmente; uso MacWhisper y estoy muy satisfecho porque Parakeet es muchísimo más rápido y preciso que Whisper en transcripción en el dispositivo, y llevo mucho tiempo usando push-to-transcribe con la combinación de MacWhisper y Parakeet; de verdad se siente como magia
- Todavía no está soportado, pero yo también lo deseo mucho; vi que Parakeet logró resultados increíbles en el leaderboard y por ahora la idea es estabilizar primero la integración con whisper.cpp y luego agregar soporte para Parakeet. Si alguien crea un conector con un PR, está listo para mergearse de inmediato
- Parakeet es realmente impresionante: en una GPU A100 va a 3000x tiempo real, y hasta en el CPU de una laptop va a 5x tiempo real. Es más preciso que whisper-large-v3; pueden ver el leaderboard de ASR en Hugging Face. Eso sí, el framework NeMo puede ser algo engorroso. Sorprende que funcione localmente en Mac (con MacWhisper)
Aviso para quienes revisen el repo esta mañana: estamos preparando un release que agrega soporte para whisper C++; pueden ver el enlace al PR de progreso, y cuando eso se publique habrá un soporte de transcripción local mucho más potente. Solo faltan unos pequeños ajustes
Ojalá existieran apps local-first de código abierto para todo tipo de cosas, y que además se integraran bien entre sí. La idea de Epicenter es guardar todos los datos en una carpeta como texto y SQLite para que sea transparente y confiable, y encima de eso montar herramientas local-first interoperables. Me encanta que esa transparencia lo haga confiable. No tengo casi experiencia con TTS, pero cuando me meta en esta área pienso empezar por Whispering gracias a Epicenter. Ya le di estrella al repo y también voy a pensar en ideas de apps para contribuir. Felicidades por entrar a YC y gracias
- Muchas gracias por el apoyo; este tipo de feedback vale muchísimo. Da gusto hablar con alguien que comparte el valor del código abierto y de que cada quien posea sus propios datos. Durante YC vamos a esforzarnos por apoyar a más desarrolladores OSS. Ojalá podamos seguir en contacto
- Creo que aquí se está hablando de STT (reconocimiento de voz), no de TTS (síntesis de voz)
- Si después quieres una versión en la nube, puedes usar la API de AgentDB para subir solo esos datos y ejecutar únicamente las consultas en la nube
Gracias por compartir un producto tan bueno. La semana pasada desarrollé yo mismo una app parecida que corre localmente porque los productos comerciales eran lentos: con un botón graba y transcribe todo el audio y lo mete en la app. También hice un segundo modo que traduce automáticamente al inglés cuando hablas en tu idioma nativo. Incluso implementé bien la preservación de formato, como comas y comillas. Sorprende que algo así todavía no exista en la app de dictado nativa de MacOS
- Muchas gracias por el apoyo, y qué bueno que también te haya ayudado con la traducción. Sí, resulta extraño que la función de dictado nativa de MacOS no haya avanzado hasta ese nivel. OSS está llenando ese vacío
Me pregunto si esto existe también en iOS. Quiero una app de teclado personalizada para iOS que envuelva Parakeet o Whisper, para poder cambiar al teclado de dictado, presionar un botón y que la transcripción se inserte directamente en cualquier app, incluyendo apps de terceros. En MacOS, MacWhisper es excelente, pero en iOS todavía no hay una función equivalente. El dictado nativo de iOS está bien, pero whisper cpp entiende mucho mejor los términos técnicos y las siglas
- superwhisper ofrece esa función
Me interesaba una función de dictado que procese el audio localmente. No me gusta enviar audio a una API remota; todo debe funcionar solo en local sin exponer nada. He probado algunas opciones, incluyendo el modelo que usa FUTO Keyboard, pero todavía siento que les falta. Sobre todo manejan mal el ruido, las muletillas como "mmm..." o "eh...", o cuando corriges algo a media frase. Ojalá aparezca un modelo abierto que resuelva bien esas partes. Todavía me cuesta saber si es un problema de la app o una limitación del modelo, pero me pregunto si hay modelos nuevos relacionados con esto. Hasta entonces, aunque sea incómodo, supongo que tendré que seguir tomando notas tecleando
- ¿Ya probaste Whisper en sí? Lo recomiendo; tiene pesos abiertos y una de las funciones de Epicenter presentada arriba es la "transformación de transcripción". Puedes pasar el texto a un LLM para refinarlo y dejarlo más limpio. Si puedes asumir el costo de tokens, no solo puede quitar muletillas, sino también corregir automáticamente las oraciones por unidades de significado
Cada vez me gusta más la idea de combinar un enfoque local-first con herramientas propias de respaldo en esta área. Recientemente hyprnote se volvió popular en Hacker News; está muy bien hecho y, aunque es local-first, también se puede usar con las herramientas que prefieras
- Yo también soy muy fan de Hyprnote. Los dos productos son un poco distintos, pero hay bastante solapamiento en el stack técnico y la misión también se parece mucho
Llevo más de un año usando whispering y cambió por completo la manera en que interactúo con la computadora. De verdad hay que comprarse un mouse y un teclado con teclas programables para asignarles los atajos de whispering. Ahora escribir de forma normal me parece tan ineficiente que ya no podría volver atrás
- Muchas gracias por el apoyo; este tipo de feedback nos da muchísimo ánimo. Si llegas a tener algún problema, ojalá nos escribas cuando quieras
Me pregunto si esta tecnología funcionará bien también con voces infantiles. Hay bastante demanda en apps educativas por modelos locales donde la privacidad es importante. Pero tengo entendido que Whisper actualmente no entiende muy bien a los niños pequeños
- Sí, es cierto: Whisper tiende a ser débil con voces infantiles. Todavía no he probado Parakeet ni otros modelos en eso, pero es un muy buen caso de uso porque la privacidad importa en educación. También me gustaría recomendar Hyprnote; últimamente están intentando ampliar los modelos, como OWhisper. Pueden revisar introducción a Hyprnote y más sobre OWhisper
Estoy obsesionado con el software open source local-first; creo que todo el mundo debería ser así
- Totalmente de acuerdo