Whispering - app de transcripción de voz de código abierto
(github.com/epicenter-so)- Whispering es una herramienta de transcripción de voz local-first que, tras presionar un atajo de teclado, realiza el proceso de voz → texto y lo pega de inmediato en el portapapeles
- A diferencia de muchas herramientas existentes, que eran servicios cerrados y de pago, Whispering ofrece procesamiento de datos transparente y accesibilidad de código abierto
- El usuario puede elegir entre opciones locales (Whisper C++, Speaches, etc.) o en la nube (Groq, OpenAI, ElevenLabs, etc.), y configurar las funciones de transformación con IA que desee
- La app pesa 22 MB y ofrece un inicio rápido, además de incluir funciones avanzadas como atajos personalizados, modo de activación por voz y formateo automático de texto
- Permite lograr al mismo tiempo propiedad de los datos y reducción de costos, por lo que es un proyecto relevante como alternativa a los SaaS cerrados de transcripción
Descripción general de Whispering
- Whispering es una app de transcripción de voz gratuita y de código abierto que, al presionar un atajo e ingresar voz, la convierte en texto y la copia automáticamente
- Los datos personales se guardan localmente por defecto y no se envían al exterior
- Si se desea, se pueden conectar directamente APIs externas como OpenAI, Groq y ElevenLabs
- Sus valores centrales son la transparencia y la garantía de propiedad de los datos
Funciones y características principales
- Soporte para modo de activación por voz (Voice Activity Detection, VAD)
- Cuando el usuario habla, la grabación comienza automáticamente, y cuando se detiene, termina sola
- Función de transformaciones basadas en IA (Transformations)
- Permite configurar distintos flujos de trabajo de IA para corrección gramatical, traducción, resumen, aplicación de formato y más
- Se puede elegir entre varios proveedores de LLM como OpenAI, Anthropic, Google Gemini y Groq
- Soporte para atajos personalizados para adaptar la experiencia al entorno del usuario
- Estructura de bajo costo: se usa la propia API key del usuario para pagar directamente al proveedor
- Ejemplo: con modelos de Groq, 0.02$/hora → alrededor de 0.20$ al mes (100 veces más barato que un SaaS tradicional)
Instalación y uso
- Hay binarios disponibles para macOS, Windows y Linux
- macOS: versiones separadas para Apple Silicon e Intel
- Windows: opciones de instalación MSI/EXE
- Linux: soporte para AppImage, DEB y RPM
- Si la instalación resulta incómoda, también hay una versión web de la app (aunque no admite atajos globales)
Cómo maneja los datos
- Todas las grabaciones y resultados de transcripción se guardan en IndexedDB para gestión local
- Si se elige un servicio externo de transcripción, solo se realizan llamadas directas mediante API key
- Sin servidores intermedios, sin recolección de datos
- Los servicios de transformación también se envían únicamente al proveedor de LLM elegido por el usuario
- Los flujos de trabajo de transformación, prompts y valores de configuración se guardan localmente
Diferenciadores y ventajas
- Las apps de transcripción existentes suelen pasar por servidores intermedios y cobrar 15 a 30 dólares al mes
- Whispering tiene una arquitectura sin intermediarios, lo que permite conectarse directamente con el proveedor y reducir costos
- Si se elige una opción local, permite un uso completamente offline, gratuito e ilimitado
Desarrollo y arquitectura
- Está construida sobre Svelte 5 + Tauri, con soporte tanto para escritorio como para web
- Tamaño de unos 22 MB, inicio rápido y uso mínimo de recursos
- La base de código usa una arquitectura de 3 capas dividida en capa de servicios, capa de consultas y capa de UI
- 97% de código compartido entre las versiones web y de escritorio
- La extensión de navegador (React + shadcn/ui) está actualmente en pausa temporal mientras se estabiliza la app de escritorio
Contribuciones y comunidad
- Cualquiera puede revisar el código fuente, contribuir funciones y agregar nuevos adaptadores de servicios de transcripción/IA
- Guías de desarrollo: mantener patrones de TypeScript/Svelte y manejo de errores basado en la biblioteca WellCrafted
- La retroalimentación de usuarios y la colaboración se canalizan a través de la comunidad de Discord y GitHub Issues
- Basada en licencia MIT, se puede hacer fork, modificar y redistribuir libremente
Respuestas principales del FAQ
- Uso offline: soporte totalmente offline con el modo local de Speaches
- Costo real: con Groq, 0.2~3$ al mes; con OpenAI, 1.8~16.2$ al mes; local es gratis
- Seguridad/privacidad: las grabaciones se guardan localmente, y cualquier envío externo se hace solo a la API del proveedor elegido directamente por el usuario
- Plataformas compatibles: escritorio en macOS, Windows y Linux + navegador web
2 comentarios
Para implementar reconocimiento de voz en una red cerrada, hice y estoy usando un servidor web liviano que hace STT con Whisper. Aunque lo explican como si todo funcionara offline, fuera de la función de transcripción, cosas como las transformaciones igual dependen de la nube, así que me pregunto qué sentido tienen realmente esas diferencias y ventajas.
Opiniones de Hacker News